Tentris Cluster - A Dist
In der Fachgruppe "Data Science" entwickeln wir Tentris (github, paper), einen der schnellsten derzeit verfügbaren Triple-Stores.
Tentris ist ein Triplestore, der konzeptionell auf Tensoren und Tensor-Algebra basiert. Tensoren werden durch eine kondensierte, monolithische Indexierungsdatenstruktur namens hypertrie implementiert. Die Auswertung von SPARQL-Abfragen erfolgt als Einstein-Summierung (einsum). Die einsum-Implementierung von Tentris basiert auf einem hochmodernen Worst-Case Optimal Join (WCOJ)-Algorithmus.
So weit, so großartig. Aber es gibt noch einige Dinge, an denen gearbeitet werden muss. Derzeit kann Tentris nur auf einer einzigen Maschine laufen. Um auf mehr Maschinen skalieren zu können, um noch größere Datenmengen zu verarbeiten oder um mehr parallele Anfragen zu bedienen, muss Tentris verteilt werden. Die Aufgabe Ihrer Masterarbeit wird es also sein, Tentris Cluster zu entwerfen und zu implementieren.
Die Masterarbeit beinhaltet:
- Suche nach verwandten Arbeiten über Triple-Store-Verteilungsstrategien
- Implementierung von mindestens einer bestehenden Verteilung oder Entwicklung einer eigenen Strategie
- Benchmarking der Implementierung hinsichtlich Ladezeit, Abfrageleistung und Skalierbarkeit
- Vergleich mit mindestens einem anderen verteilten Triple-Store
Erforderliche Fähigkeiten:
- Kenntnisse von Semantic Web Standards wie SPARQL und RDF
- Gute Kenntnisse in moderner C++-Programmierung (C++17/20)
- Erfahrung mit C++ Template-Programmierung
- Einige Vorkenntnisse über verteilte Datenbanken könnten hilfreich sein
Links: