Statistische Verarbeitung natürlicher Sprache
Vorlesung: Master
Sprache: Englisch
Die Menschheit erzeugt jedes Jahr Exabytes an Daten. Die meisten dieser Daten liegen in irgendeiner Form in natürlicher Sprache vor (insbesondere in Textform). Daher gewinnt die Einbeziehung von Textdatenquellen in groß angelegten datengesteuerten Anwendungen zunehmend an Bedeutung. Ein beliebtes Anwendungsszenario für diesen Einsatz sind persönliche Assistenten (Siri, Google Home, Cortana usw.), die sich teilweise auf Webseiten stützen, um ausgewählte Antworten auf Benutzerfragen zu extrahieren. Die semantisch fundierte Verarbeitung großer Textmengen erweist sich für Maschinen jedoch als eher schwierig. Ziel dieser Vorlesung ist es, den Studierenden einen Einblick in Ansätze zu geben, die vor allem auf probabilistischen Modellen basieren und die Implementierung von Pipelines zur Verarbeitung natürlichsprachlicher Texte erleichtern sollen. Die Vorlesung ist wie folgt aufgebaut:
- Endliche Zustandsautomaten
- Sprachmodelle
- Rechtschreibprüfung
- Deduplizierung
- Klassifizierung
- Versteckte Markov-Modelle
- Grammatik und Semantik
- Parsing natürlicher Sprache
- Wort-Sinn-Disambiguierung
- Distributionelle Semantik