Automatic Meeting Transcription - Heinz Nixdorf Institut (HNI)

Verschriftung von Gesprächssituationen: Systeme für die robuste Spracherkennung in Fernfeld-Szenarien

Illustration of a meeting scenario. Speakers are active multiple times and their utterances may overlap in time.

m Rahmen mehrerer Projekte und Kooperationen befassen wir uns mit der maschinellen Verschriftung von Gesprächssituationen, seien es professionelle Besprechungen oder lockere Treffen unter Freunden. Zu diesem Thema herrscht noch großer Forschungsbedarf, denn bisherige Lösungen erreichen bei weitem nicht die Erkennungsleistung eines Menschen.

Eine Software zur automatischen Verschriftung von Gesprächen, wie etwa Meetings von Geschäftspartnern oder Arbeitsgruppentreffen, kann das manuelle Protokollieren ersetzen und damit zu einer Arbeitserleichterung führen. Jedoch ist die automatische Spracherkennung gerade in diesem Anwendungsbereich besonders schwierig: Zum einen ist die Signalqualität aufgrund von Umgebungseinflüssen, wie z.B. Raumhall, schlecht. Und es kommt gerade bei informellen Gesprächssituationen immer wieder vor, dass sich die Personen ins Wort fallen, oder es entwickeln sich parallel verlaufende Gespräche unter den Teilnehmern, so dass sich die Signale mehrerer Sprecher überlappen.

Ist die Spracherkennung schon aus den genannten Gründen problematisch, so ist eine wörtliche Verschriftung alleine nicht sehr hilfreich. Zumindest sollte auch protokolliert werden, wer etwas gesprochen hat. Wir entwickeln daher Verfahren, die nicht nur das Gesprochene verschriften, sondern auch mit einer Annotation versehen, wer wann gesprochen hat. Dabei werden die Algorithmen so entworfen, dass die Gesamtzahl der Sprecher vorab nicht bekannt sein muss.

Diese Annotierungsaufgabe, die im Englischen als „Diarization“ bezeichnet wird, umfasst im Wesentlichen zwei Teilaufgaben: die Segmentierung der Besprechung in Zeitabschnitte, in denen die Gesprächssituation konstant ist, d.h. in denen es keine Sprechwechsel gibt, und die korrekte Identifikation des in dem Segment aktiven Sprechers oder der aktiven Sprecher, falls mehrere gleichzeitig sprechen sollten. Wir entwicklen Verfahren, die dies zuverlässig ermöglichen, wobei insbesondere die korrekte Annotation bei Sprecherüberlapp und die korrekte Identifikation eines längere Zeit inaktiven Sprechers eine Herausforderung darstellen.

Um Beeinträchtigungen der Signalqualität durch Raumhall und andere akustische Störungen zu reduzieren, werden Mikrofongruppen eingesetzt. Hierdurch kann sich das Gerät auf die Richtung des Zielsprechers konzentrieren und Störungen aus anderen Raumrichtungen unterdrücken. Dazu wurden in der Vergangenheit statistische Ansätze und heutzutage vermehrt neuronale Netze eingesetzt. Wir integrieren beide Ansätze, um ihre Stärken zu kombinieren: Die statistischen Modelle erlauben eine präzise akustische Strahlformung auf eine bestimmte Raumrichtung hin, während die neuronalen Netze die Bestimmung der Raumrichtung des Zielsprechers und der Störungen beitragen.

Für die Verarbeitung von Gesprächssituationen, in denen mehrere Sprecher aktiv sind und sich deren Sprache überlappen kann, sind Vorverarbeitungsschritte notwendig, die Sprachaktivität erkennen und Sprecherüberlappungen in die Signale der beteiligten Sprecher trennen, damit anschließend eine robuste Verschriftung möglich ist. Hierfür haben wir ein Verfahren entwickelt, welches unabhängig von der Anzahl der Sprecher die Signale auf zwei Ausgangskanäle so verteilt, dass keinerlei Sprecherüberlapp mehr vorhanden ist.