Das französische KI-Unternehmen Mistral hat ein Open-Source-Text-to-Speech-Modell namens Voxtral TTS auf den Markt gebracht, das für Sprach-KI-Assistenten und Unternehmensanwendungen wie den Kundensupport entwickelt wurde. Diese Entwicklung positioniert Mistral direkt gegenüber Konkurrenten wie ElevenLabs, Deepgram und OpenAI.

Voxtral TTS unterstützt neun Sprachen: Englisch, Französisch, Deutsch, Spanisch, Niederländisch, Portugiesisch, Italienisch, Hindi und Arabisch. Das Modell zielt darauf ab, die Kundenanforderungen nach einem flexiblen Sprachmodell zu erfüllen, das für verschiedene Edge-Geräte geeignet ist und eine kostengünstige Lösung mit hoher Leistung bietet.

Pierre Stock, VP of Science Operations bei Mistral AI, sagte: „Unsere Kunden haben nach einem Sprachmodell gefragt. Deshalb haben wir ein kleines Sprachmodell entwickelt, das auf eine Smartwatch, ein Smartphone, einen Laptop oder andere Edge-Geräte passt.“ Er betonte, dass das Modell zwar preislich konkurrenzfähig sei, aber dennoch modernste Leistung biete.

Das Modell ermöglicht die Anpassung benutzerdefinierter Stimmen mit Samples von weniger als fünf Sekunden. Es erfasst subtile Merkmale wie Akzente und Sprachunregelmäßigkeiten. Darüber hinaus kann Voxtral TTS, basierend auf Ministral 3B, die Sprache wechseln, ohne die Sprachqualität zu beeinträchtigen, wodurch es für Echtzeitübersetzungen und Synchronisationen geeignet ist.

Die Leistungskennzahlen des Modells sind bemerkenswert. Es hat eine Time-to-First-Audio (TTFA) von 90 Millisekunden für ein 10-Sekunden-Sample mit 500 Zeichen und einen Echtzeitfaktor (RTF) von 6x, was bedeutet, dass ein Clip in etwa 1,6 Sekunden gerendert werden kann.

Dieser Start folgt auf die Einführung von zwei Transkriptionsmodellen durch Mistral Anfang 2023, die auf die Verarbeitung großer Stapel und Echtzeit-Anwendungsfälle mit geringer Latenz abzielen. Voxtral TTS ist Teil der Strategie von Mistral, Unternehmen eine umfassende Suite von Sprachprodukten anzubieten.

Stock skizzierte zukünftige Pläne und erklärte: „Wir planen eine End-to-End-Plattform, die multimodale Eingabeströme, einschließlich Audio, Text und Bilder, verarbeiten kann.“ Diese Plattform soll die Informationen verbessern, die von Systemen verarbeitet werden, in die sie integriert ist.


Quelle des hervorgehobenen Bildes