Cross-Lin­gu­al Trans­fer Lear­ning for Na­med En­ti­ty Re­co­gni­ti­on in Low-Re­sour­ce Lan­gua­ges

In diesem Thema wird die Effektivität des sprachübergreifenden Transferlernens für die Erkennung von benannten Entitäten (NER) in Sprachen mit geringen Ressourcen untersucht. Die Forschung konzentriert sich auf das Vortraining von Modellen in Sprachen mit hohen Ressourcen und deren Feinabstimmung in begrenzten annotierten Datensätzen von Sprachen mit geringen Ressourcen. Besonderes Augenmerk wird dabei auf die Herausforderungen der morphologischen Komplexität und der Datenknappheit in diesen Sprachen gelegt. Die Studie baut auf bestehenden Forschungsarbeiten auf, wie z. B. Wu und Dredze (2019), die die Wirksamkeit von mBERT bei der Übertragung von Wissen auf Sprachen mit geringen Ressourcen für NER-Aufgaben nachgewiesen haben. Erforschung von Techniken, die in anderen Sequenzetikettierungsaufgaben wie LOREM für die Named Entity Recognition (NER) verwendet werden.

Zu den wichtigsten Forschungszielen gehören:

  • Untersuchung der modernsten Methoden für sprachübergreifende NER
  • Entwicklung neuartiger Ansätze für den Wissenstransfer von ressourcenreichen zu ressourcenarmen Sprachen
  • Erforschung innovativer Techniken zur Datenerweiterung, um beschriftete Daten für ressourcenarme Sprachen zu erzeugen
  • Implementierung und Evaluierung von Transfer-Learning-Ansätzen, um bestehende Benchmarks zu übertreffen
  • Untersuchung von unüberwachten und halbüberwachten Methoden zur Verbesserung der Verfügbarkeit von Trainingsdaten

Forschungslücken:
Begrenzte Erforschung von unüberwachten Methoden für sprachübergreifende NER: Die meisten bestehenden Forschungsarbeiten zu sprachübergreifender NER haben sich auf überwachte Methoden konzentriert, die gelabelte Daten in der Ausgangssprache erfordern. Es gibt eine Lücke im Verständnis, wie unüberwachte Methoden effektiv für sprachübergreifende NER in Sprachen mit geringen Ressourcen eingesetzt werden können.

Aufgaben:

  • Untersuchung des Stands der Technik in der sprachübergreifenden NER
  • Entwicklung eines Ansatzes zur Übertragung von Wissen aus einem Modell, das in einer Sprache mit vielen Ressourcen trainiert wurde, auf eine Sprache mit wenigen Ressourcen.
  • Datenerweiterungstechniken zur Generierung gelabelter Daten für ressourcenarme Sprachen

Voraussetzungen:

  • Grundlegende NLP-Konzepte
  • Beherrschung der Python-Programmierung
  • Konzepte für Deep Learning und Transfer Learning

Kon­takt