Ler­nen tie­fer Sprach­re­prä­sen­ta­ti­o­nen für die Pho­ne­tik­for­schung

 |  Heinz Nixdorf InstitutNachrichtentechnik (NT) / Heinz Nixdorf Institut

Das Sprachsignal ist eine reichhaltige Informationsquelle, die nicht nur sprachliche, sondern auch parasprachliche Informationen wie Identität, Geschlecht, emotionalen Zustand oder Alter vermittelt. Diese Merkmale sind jedoch in komplexen, nicht transparenten Variationen des Sprachsignals verborgen. Das Projekt “Lernen tiefer Sprachrepräsentationen für die Phonetikforschung” unserer Fachgruppe Nachrichtentechnik untersucht genau diese parasprachlichen Dimensionen und gehen folgenden Fragen auf den Grund:

Wie lassen sich Merkmale wie Stimme, Sprechtempo oder Emotionen entflechten und gezielt verändern? Und wie nimmt der Mensch diese Veränderungen wahr?

Die Ziele dieses Projekts waren es, 

(i) Methoden der künstlichen Intelligenz zu nutzen, um verschiedene Dimensionen des Sprachsignals voneinander zu entflechten sowie 

(ii) besser verstehen zu lernen, wie diese Dimensionen vom Menschen wahrgenommen werden. 

Auf Basis von tiefen generativen Modellen wurden zunächst Verfahren entwickelt, die die Stimme, die Sprechgeschwindigkeit und ausgewählte Dimensionen der Stimmqualität entflechten und manipulieren können. Die Ergebnisse zeigten, dass einzelne Dimensionen unabhängig voneinander manipuliert werden können und dass die gleichzeitige Manipulation mehrerer Dimensionen zu einer höheren Ähnlichkeit zu einem gewünschten Zielsprecher führt. 

Des Weiteren hat die Fachgruppe die Evaluation von Sprachsynthese feiner gestaltet und festgestellt, dass nicht nur die gängigen Konstrukte “Audioqualität” und “Verständlichkeit”, sondern auch paralinguistische Konstrukte wie “Sprechtempo”, “Sprecherherkunft” und “Freundlichkeit” wesentlich in der menschlichen Bewertung von Sprachsynthese sind. Mit dem zunehmenden Einfluss von KI-Agenten in unserem Alltag können diese Erkenntnisse helfen, um zur Akzeptanz von KI-Stimmen beizutragen.