Robust Embeddings for Knowledge Graphs
Methoden zur Einbettung von Wissensgraphen erlernen kontinuierliche Vektordarstellungen für Entitäten und Relationen in Wissensgraphen und wurden bereits erfolgreich für viele Anwendungen, einschließlich der Vorhersage von Verbindungen, eingesetzt [1]. „Das beste Verhältnis zwischen Ausdruckskraft und Größe des Parameterraums zu finden, ist der Schlüssel zu Einbettungsmodellen“ [2]. Für eine umfassende Optimierung der Hyperparameter sind jedoch moderne Hardwaresysteme erforderlich. Beispielsweise benötigt das RotatE-Modell 9 Stunden Rechenzeit [3], um seine Spitzenleistung auf dem FB15K-Benchmark-Datensatz mit einer GeForce GTX 1080 Ti GPU zu erreichen. Die Gesamtlaufzeit des RotatE-Modells während der Hyperparamter-Optimierungsphase auf FB15K entspricht 1512 Stunden. Die Verfügbarkeit hochmoderner Hardwaresysteme hat oft darüber entschieden, welche Forschungsideen erfolgreich sind (und welche nicht) [4].
Nakkiran et al. [5,6] aus der OPENAI-Forschung zeigen, dass das Phänomen des doppelten Abstiegs bei CNNs, ResNets und Transformatoren auftritt: „Die Leistung verbessert sich zunächst, wird dann schlechter und verbessert sich dann wieder mit zunehmender Modellgröße, Datenmenge oder Trainingszeit“.
In dieser Arbeit soll der Student folgende Fragen beantworten:
- Tritt das Phänomen des doppelten Abstiegs bei der Einbettung von Wissensgraphen auf [1,2,3]?
- Können wir uns dieses Phänomen zunutze machen, um eine umfangreiche Hyperparameteroptimierung zu vermeiden?
Erforderliche Kenntnisse:
- Wissensgrapheneinbettung
- Maschinelles Lernen
- Wissensgraphen
- Python, NumPy und PyTorch
Quellen:
[1] Convolutional Complex Knowledge Graph Embeddings (https://arxiv.org/abs/2008.03130)
[2] Complex Embeddings for Simple Link Prediction (https://arxiv.org/abs/1606.06357)
[3] ROTATE: Knowledge Graph Embedding by relational rotation in complex space (https://arxiv.org/abs/1902.10197)
[4] The Hardware Lottery (https://arxiv.org/abs/2009.06489)
[5] Deep Double Descent: Where Bigger Models and More Data Hurt (https://arxiv.org/abs/1912.02292)
[6] deep-double-descent blogpost (https://openai.com/blog/deep-double-descent/)