MA - Tentris Cluster - A Distributing Tensor-Based Triple - Heinz Nixdorf Institut (HNI)

Tentris Cluster - A Distributing Tensor-Based Triple

In der Fachgruppe "Data Science" entwickeln wir Tentris (github, paper), einen der schnellsten derzeit verfügbaren Triple-Stores.

Tentris ist ein Triplestore, der konzeptionell auf Tensoren und Tensor-Algebra basiert. Tensoren werden durch eine kondensierte, monolithische Indexierungsdatenstruktur namens hypertrie implementiert. Die Auswertung von SPARQL-Abfragen erfolgt als Einstein-Summierung (einsum). Die einsum-Implementierung von Tentris basiert auf einem hochmodernen Worst-Case Optimal Join (WCOJ)-Algorithmus.

So weit, so großartig. Aber es gibt noch einige Dinge, an denen gearbeitet werden muss. Derzeit kann Tentris nur auf einer einzigen Maschine laufen. Um auf mehr Maschinen skalieren zu können, um noch größere Datenmengen zu verarbeiten oder um mehr parallele Anfragen zu bedienen, muss Tentris verteilt werden. Die Aufgabe Ihrer Masterarbeit wird es also sein, Tentris Cluster zu entwerfen und zu implementieren.

Die Masterarbeit beinhaltet:

Suche nach verwandten Arbeiten über Triple-Store-Verteilungsstrategien
Implementierung von mindestens einer bestehenden Verteilung oder Entwicklung einer eigenen Strategie
Benchmarking der Implementierung hinsichtlich Ladezeit, Abfrageleistung und Skalierbarkeit
Vergleich mit mindestens einem anderen verteilten Triple-Store

Erforderliche Fähigkeiten:

Kenntnisse von Semantic Web Standards wie SPARQL und RDF
Gute Kenntnisse in moderner C++-Programmierung (C++17/20)
Erfahrung mit C++ Template-Programmierung
Einige Vorkenntnisse über verteilte Datenbanken könnten hilfreich sein

Links:

ISWC 2020 Paper: Tentris – A Tensor-Based Triple Store (dice-research.org)

Betreuer

Alexander Bigerl

Data Science / Heinz Nixdorf Institut

E-Mail schreiben +49 5251 60-3342

Mehr zur Person