Wissenschaftler haben ein neues neuronales Netzwerk geschaffen, das mithilfe von KI aus Sprachproben singen kann. Der Algorithmus chinesischer Entwickler kann eine Aufzeichnung des Gesangs einer Person basierend auf einer Aufzeichnung der üblichen Sprache der Person synthetisieren oder sie umgekehrt ausführen und Sprache basierend auf dem Gesang synthetisieren. Ein Artikel, der die Entwicklung, Schulung und Erprobung eines Algorithmus beschreibt, wurde veröffentlicht veröffentlicht bei arXiv.org.
In den letzten Jahren hat die Entwicklung neuronaler Netzwerkalgorithmen für die Sprachsynthese wie WaveNet die Schaffung von Systemen ermöglicht, die schwer von realen Menschen zu unterscheiden sind. Zum Beispiel zeigte Google 2018 einen Sprachassistenten für die Buchung von Sitzplätzen, der nicht nur realistisch sprechen kann, sondern auch menschliche Geräusche einfügt, die die Sprache überprüfbar machen, z. B. „ähm“. Infolgedessen musste das Unternehmen dem Algorithmus auch beibringen, zu Beginn eines Gesprächs zu warnen, dass es sich nicht um eine Person handelt.
Wie bei anderen Algorithmen für neuronale Netze hängt der Erfolg von Sprachsynthesesystemen weitgehend nicht von ihrer Architektur ab, sondern hauptsächlich von der großen Menge verfügbarer Daten für das Training. Das Erstellen eines Systems zur Synthese von Gesang ist eine scheinbar ähnliche Aufgabe, die jedoch aufgrund der erheblich geringeren Menge verfügbarer Daten viel komplizierter ist.
Viele Entwickler, die an Geneatisierungssystemen für das Singen arbeiten, haben kürzlich den Weg eingeschlagen, das Volumen der Gesangsproben zu reduzieren, um den Algorithmus zu lehren. Jetzt hat eine Gruppe chinesischer Forscher unter der Leitung von Dong Yu von Tencent ein System entwickelt, mit dem realistische Audioaufnahmen für das Singen aus Sprache erstellt werden können Proben.
Der Algorithmus basiert auf der früheren Entwicklung von Tencent, dem DurIAN-Neuronalen Netzwerk, das zur realistischen Synthese entwickelt wurde Videos mit einem sprechenden Moderator basierend auf Text. Jetzt stellen sie eine neue Spracherkennungseinheit vor DuarIAN, die Phoneme basierend auf dem Audio-Sample erstellt.
Die Autoren trainierten den Algorithmus an zwei proprietären Datensätzen, die aus eineinhalb Stunden Singen und 28 Stunden Sprechen bestehen. Nach dem Training testeten sie den Algorithmus an 14 Freiwilligen, die den Realismus des synthetisierten Gesangs und die Ähnlichkeit bewerteten. Als Ergebnis erhielt einer der Tests 3,8 Punkte Realismus und 3,65 Punkte Ähnlichkeit. Die Autoren veröffentlicht Beispiele der Arbeit des neuronalen Netzes.