Forschung
Maschinelle Lernverfahren, und hier insbesondere tiefe neuronale Netze, haben in vielen Bereichen der Technik zu drastischen Verbesserungen geführt. Wir komplementieren diese datengetriebenen Methoden mit modellbasierten Ansätzen der statistischen Signalverarbeitung, um vielfältige Aufgaben der Sprach- und Audiosignalverarbeitung auf innovative Weise zu lösen.
Die gesprochene Sprache ist das wichtigste Kommunikationsmedium für den Menschen, insbesondere auch um über eine Entfernung zu (tele)kommunizieren. Zudem wird Sprache in zunehmendem Maße auch für die Kommunikation mit Maschinen eingesetzt. Damit dies zuverlässig, flexibel und robust funktioniert, muss das aufgenommene Sprachsignal von externen Einflüssen befreit werden. Unter dem Begriff Sprachsignalverbesserung fasst man Methoden zur Geräuschunterdrückung, Enthallung oder Entflechtung von Sprachgemischen mehrerer Sprecher zusammen, während man unter Spracherkennung seine Verschriftung, d.h. die Umsetzung in eine für den Computer lesbare Form, versteht. In all diesen Bereichen sind wir, häufig in Kooperation mit bekannten internationalen Firmen, aktiv. Ein besonderes Merkmal unserer Forschung ist dabei, dass wir maschinelle Lernverfahren mit klassischen Methoden der statistischen Signalverarbeitung geschickt kombinieren, um so zu robusteren, energieeffizienteren und erklärbareren Lösungen zu kommen, als dies mit rein datengetriebenen maschinellen Lernverfahren möglich wäre.
Sprache ist ein faszinierendes Signal, enthält es doch neben dem Inhalt, d.h. der Information, was gesprochen wird, auch sehr viel Information darüber, wer spricht und in welcher Umgebung gesprochen wird. Die Phonetikforschung untersucht unter anderem, über welche akustische Ausprägungen bestimmte para- und extralinguistische Informationen transportiert werden, die Aufschluss über die Verfassung des Sprechers und der Umgebung liefern. Wir glauben, dass diese Forschungsfragestellungen mit den Möglichkeiten heutiger maschineller Lernverfahren, Sprachsignale gezielt manipulieren zu können, auf neuartige Weise untersucht werden können. Hierzu arbeiten wir mit Phonetikern der Universität Bielefeld in einem DFG Projekt und im Rahmen des Transregios TRR 318 „Constructing Explainability“ zusammen.
In unserem täglichen Leben sind wir von einer Vielzahl von Geräuschen und anderen akustischen Signalen umgeben. Häufig unbewusst werten wir diese Signale aus, um uns eine Vorstellung über die Umgebung und die Aktivitäten in der Umgebung zu machen. Ein technisches System mit ähnlichen Fähigkeiten hätte vielfältige Anwendungen, etwa für Assistenzsysteme, intelligente Steuerungen oder zur Unterstützung der Umgebungswahrnehmung beim autonomen Fahren. Zusammen mit Fachkollegen aus anderen deutschen Universitäten erforschen wir im Rahmen einer DFG Forschungsgruppe sogenannte akustische Sensornetze, die über verteilte Sensorknoten akustische Signale aufnehmen, bereinigen und klassifizieren, um obige Anwendungen zu realisieren.