OpenAI kündigte neue Sprachintelligenzfunktionen für seine API an, die Entwickler bei der Erstellung interaktiver Anwendungen unterstützen sollen, die in Echtzeit Gespräche führen, transkribieren und übersetzen können. Das neu eingeführte GPT-Realtime-2-Modell basiert auf der Argumentation der GPT-5-Klasse und zielt darauf ab, komplexere Benutzeranfragen im Vergleich zu seinem Vorgänger GPT-Realtime-1.5 zu verarbeiten.
Darüber hinaus führte OpenAI GPT-Realtime-Translate ein, das Echtzeit-Übersetzungsdienste für über 70 Eingabesprachen und 13 Ausgabesprachen bereitstellt. Diese Funktion dient dazu, während Gesprächen mit den Benutzern Schritt zu halten.
Ein weiteres wichtiges Update ist die GPT-Realtime-Whisper-Funktion, die eine Live-Sprach-zu-Text-Transkription für Echtzeitinteraktionen bietet. „Gemeinsam bewegen die Modelle, die wir auf den Markt bringen, Echtzeit-Audio von einfachen Anrufen und Antworten hin zu Sprachschnittstellen, die tatsächlich funktionieren: zuhören, argumentieren, übersetzen, transkribieren und Maßnahmen ergreifen, während sich ein Gespräch entfaltet“, erklärte OpenAI.
Laut OpenAI zielen diese Updates auf mehrere Branchen ab, darunter Kundenservice, Bildung, Medien und Veranstaltungen. Das Unternehmen wies darauf hin, dass die neuen Funktionen auch das Risiko eines Missbrauchs bergen könnten, etwa der Entstehung von Spam oder Betrug. Um dies zu mildern, hat OpenAI Leitplanken implementiert, die Gespräche stoppen sollen, die gegen Richtlinien zu schädlichen Inhalten verstoßen.
Alle neuen Sprachmodelle sind Teil der Echtzeit-API von OpenAI. Die Abrechnungsstruktur variiert: GPT-Realtime-Translate und GPT-Realtime-Whisper werden minutenweise abgerechnet, während GPT-Realtime-2 auf Basis des Token-Verbrauchs abgerechnet wird.








