Multi-view learn­ing for En­tity Typ­ing in Know­ledge Graphs

In den letzten Jahren haben Wissensgraphen (Knowledge Graphs, KGs) in verschiedenen Anwendungen eine große Bedeutung erlangt. Eines der grundlegenden Merkmale von KGs ist die Information über Entitätstypen, die eine Gruppe von Entitäten mit ähnlichen Eigenschaften in denselben semantischen Typ zusammenfasst. Leider leiden KGs oft unter fehlenden Daten (bekannt als KG-Unvollständigkeitsproblem), was zu einer schlechten Leistung bei verschiedenen NLP-Aufgaben führt. Zum Beispiel beträgt die durchschnittliche Anzahl der Typen in DBpedia 2,9 (5.044.223 Entitäten mit 14.760.728 Typen), während 36% der Entitäten keine Typen haben. Ein weiteres Beispiel ist der Freebase-Datensatz (FB15k-237), bei dem 10 % der Entitäten, die mit „artist/music“ beschriftet sind, die Typen „people/person“ fehlen. Aus diesem Grund ist es von entscheidender Bedeutung, Methoden zu entwickeln, die die Unvollständigkeit von KGs in den Griff bekommen. Eine der Aufgaben im Zusammenhang mit der Vollständigkeit von KGs ist die Typisierung von Entitäten, die darauf abzielt, mögliche fehlende Typen (z.B. Person, Ort, Organisation) für eine Entität abzuleiten.

In dieser Arbeit werden Multiview-Lerntechniken untersucht, um Unvollständigkeitsprobleme in KGs zu lösen, insbesondere fehlende Entitätstypen. Einbettungen aus mehreren Sichten können zum Beispiel auf Entitätsnamen, Beziehungen und Attributen basieren. Unser Ziel ist es, die folgenden Forschungsfragen zu beantworten: 1) Welche Arten von Sichten können für einen Wissensgraphen gelernt (d.h. eingebettet) werden? 2) Welches ist die beste Strategie, um diese Sichten zu kombinieren? Wir beabsichtigen, mehrere Experimente mit Benchmark-Datensätzen wie DBpedia, YAGO43k und FB15k-237 durchzuführen.

Voraussetzungen:

  • Gute Kenntnisse in maschinellem Lernen und Semantic Web
  • Beherrschung von Python und Deep Learning Frameworks (TensorFlow oder PyTorch)
  • Kenntnisse der Einbettung von Wissensgraphen (z.B. TransE, rotateE, DistMult).

Aufgaben:

  • Entwicklung eines Multiview-Lernansatzes zur Vorhersage fehlender Entitätstypen.
  • Benchmarking verschiedener Kombinationsstrategien im Multiview-Lernen.
  • Zusammenfassung der aktuellen Einschränkungen und Herausforderungen in der Literatur zum Multi-View-Learning.

Be­treuer

business-card image

Dr. Hamada Zahera

Data Science / Heinz Nixdorf Institute

Research Associate

Write email +49 5251 60-5194