Sta­tis­ti­sche Ver­a­r­bei­tung na­tür­li­cher Spra­che

Vorlesung: Master

Sprache: Englisch

Die Menschheit erzeugt jedes Jahr Exabytes an Daten. Die meisten dieser Daten liegen in irgendeiner Form in natürlicher Sprache vor (insbesondere in Textform). Daher gewinnt die Einbeziehung von Textdatenquellen in groß angelegten datengesteuerten Anwendungen zunehmend an Bedeutung. Ein beliebtes Anwendungsszenario für diesen Einsatz sind persönliche Assistenten (Siri, Google Home, Cortana usw.), die sich teilweise auf Webseiten stützen, um ausgewählte Antworten auf Benutzerfragen zu extrahieren. Die semantisch fundierte Verarbeitung großer Textmengen erweist sich für Maschinen jedoch als eher schwierig. Ziel dieser Vorlesung ist es, den Studierenden einen Einblick in Ansätze zu geben, die vor allem auf probabilistischen Modellen basieren und die Implementierung von Pipelines zur Verarbeitung natürlichsprachlicher Texte erleichtern sollen. Die Vorlesung ist wie folgt aufgebaut:

  1. Endliche Zustandsautomaten
  2. Sprachmodelle
  3. Rechtschreibprüfung
  4. Deduplizierung
  5. Klassifizierung
  6. Versteckte Markov-Modelle
  7. Grammatik und Semantik
  8. Parsing natürlicher Sprache
  9. Wort-Sinn-Disambiguierung
  10. Distributionelle Semantik

An­sprech­part­ner

business-card image

Dr. Michael Röder

Data Science / Heinz Nixdorf Institut

Nachwuchsgruppenleiter im Bereich "Interpretable Data Processing"

E-Mail schreiben +49 5251 60-3894