„Die menschliche Stimme ist ein komplexes Konstrukt aus Überlagerungen verschiedener Einflussfaktoren. Dadurch hat sie verschiedene Eigenschaften, die nur schwer zu identifizieren sind“, sagt Professor Dr. Reinhold Häb-Umbach, Professor für Nachrichtentechnik an der Universität Paderborn und einer der Leiter des Teilprojekts C06. „Indem wir Sprachsignale in verschiedene Komponenten zerlegen, können wir mehr darüber erfahren, was unsere Stimmen einzigartig macht.“
Bei den Komponenten wird zwischen sprachlich-inhaltlichen Eigenschaften – was jemand sagt – und klanglichen Eigenschaften – wie die Stimme dabei klingt – unterschieden. In ihrer Veröffentlichung zeigen die Forschenden, wie die einzelnen Komponenten auf der klanglichen Ebene zusammenhängen. Dafür erstellten sie ein Modell aus neuralen Netzen, das die verschiedenen klanglichen Aspekte voneinander trennt. Dieses kann dafür genutzt werden, eine neue synthetische Sprache mit gezielt veränderten Eigenschaften, zum Beispiel einer gewünschten mittleren Tonhöhe (Pitch), zu erzeugen.
Die Ergebnisse präsentierten die Forscher*innen in ihrem Artikel „Speech Disentanglement for Analysis and Modification of Acoustic and Perceptual Speaker Characteristics“ (deutsch: Entflechtung von Sprache zur Analyse und Modifikation akustischer und wahrnehmungsbezogener Sprechereigenschaften). „Mit der Veröffentlichung tragen wir dazu bei, zu verstehen, wie wir mit dem Computer verschiedene Aspekte von Sprache verstehen und verändern können“, fasst Frederik Rautenberg, Mitautor des Artikels und ebenfalls Forschender im Teilprojekt C06, zusammen. „Damit können wir Sprachveränderungsprogramme entwickeln, die zum Beispiel Menschen mit Sprechschwierigkeiten helfen können.“
Der Artikel wurde auf der 49. Jahrestagung für Akustik (DAGA) vorgestellt. Die DAGA ist die größte Konferenz zum Thema Akustik im deutschsprachigen Raum und fand vom 6.-9. März in Hamburg statt.