Zum ersten Mal konnte künstliche Intelligenz (KI) beim Erkennen alltäglicher Gespräche eine höhere Genauigkeit als Menschen erzielen. In Zukunft könnte die Technologie als Grundlage für automatische Übersetzungen dienen.
Digitale Assistenten wie Alexa, Cortana oder Siri ermöglichen die automatische Transkription gesprochener Texte und Übersetzungen. Zu diesem Zweck verwenden Spracherkennungssysteme künstliche neuronale Netze, die einzelnen Silben und Wörtern mithilfe von Bibliotheken akustische Signale zuweisen. Die Ergebnisse sind jetzt sehr gut, wenn die Assistenten direkt angesprochen werden oder wenn ein Text vorgelesen wird. Im Alltag treten jedoch immer noch häufig Probleme auf, die, wie eine kürzlich von der Ruhr-Universität-Bochum (RUB) durchgeführte Studie gezeigt hat, auch dazu führen können, dass Sprachassistenten unbeabsichtigt durch missverstandene Signalwörter aktiviert werden.
Auch Gespräche zwischen mehreren Personen verursachen derzeit noch häufig Probleme. Laut Alex Waibel vom Karlsruher Institut für Technologie (KIT) „gibt es Unterbrechungen, Stottern, Füllgeräusche wie„ ah “oder„ hm “und auch Lachen oder Husten, wenn Menschen miteinander sprechen. Darüber hinaus erklärt Waibel: „Wörter werden oft unklar ausgesprochen. Infolgedessen haben sogar Menschen Probleme, eine genaue Transkription eines solchen informellen Dialogs zu erstellen. Noch größere Schwierigkeiten bereitet die künstliche Intelligenz (KI).
Alltagsgespräche problematisch für KI
Laut einem von arXiv veröffentlichten Preprint ist es Wissenschaftlern in der Umgebung von Waibel nun gelungen, eine KI zu entwickeln, die alltägliche Gespräche schneller und besser als Menschen transkribiert. Das neue System basiert auf einer Technologie, die Universitätsvorlesungen aus dem Deutschen und Englischen in Echtzeit übersetzt. Sogenannte Encoder-Decoder-Netzwerke werden verwendet, um akustische Signale zu analysieren und ihnen Wörter zuzuweisen. Laut Waibel ist „die Erkennung spontaner Sprache die wichtigste Komponente in diesem System, da Fehler und Verzögerungen die Übersetzung schnell unverständlich machen.
Erhöhte Genauigkeit und reduzierte Latenz
Jetzt haben KIT-Wissenschaftler das System erheblich verbessert und insbesondere die Latenz erheblich reduziert. Waibel und sein Team verwendeten einen Ansatz, der auf der Wahrscheinlichkeit bestimmter Wortkombinationen basierte, und verknüpften ihn mit zwei anderen Erkennungsmodulen.
In einem standardisierten Test hörte das neue Spracherkennungssystem Auszüge aus einer Sammlung von etwa 2.000 Stunden Telefongesprächen, die das System automatisch transkribieren sollte. Laut Waibel „liegt die menschliche Fehlerquote hier bei rund 5,5 Prozent. Die KI hingegen erreichte nur eine Fehlerquote von 5,0 Prozent und übertraf damit erstmals die Menschen bei der Erkennung alltäglicher Gespräche. Die Latenzzeit, dh die Verzögerung zwischen dem Eintreffen des Signals und dem Ergebnis, ist mit durchschnittlich 1,63 Sekunden ebenfalls sehr schnell, kommt aber der durchschnittlichen Latenzzeit von 1 Sekunde eines Menschen noch nicht ganz nahe.
In Zukunft könnte das neue System beispielsweise als Grundlage für automatische Übersetzungen oder für andere Szenarien verwendet werden, in denen Computer natürliche Sprache verarbeiten sollen.