Der KI-Assistent Gemini von Google unterstützt jetzt das Hochladen von Audiodateien und ermöglicht es Nutzern, Aufzeichnungen zu transkribieren, zusammenzufassen und wichtige Informationen daraus zu extrahieren. Diese neue Funktion wandelt bis zu 10 Minuten Sprachnotizen, Besprechungen, Vorträge und Interviews in durchsuchbare Dokumente um.

Die Audio-Upload-Funktion ist sowohl im Internet als auch über die mobilen Apps verfügbar und über die Standardschnittstelle zum Hochladen von Dateien zugänglich. Laut Josh Woodward, VP of Gemini bei Google, wurde die Funktion zum Hochladen von Audiodateien von den Nutzern am häufigsten nachgefragt.

Diese Funktionalität unterscheidet sich von Gemini Live, das sich auf Echtzeit-Sprachbefehle konzentriert, während die neue Funktion darauf ausgelegt ist, Daten aus hochgeladenen Audiodateien zu verarbeiten. Während des Tests transkribierte Gemini Skizzen aus Comedy-Alben und Telefongesprächen genau, mit nur geringfügigen Fehlern bei der Namenserkennung. Die KI identifizierte außerdem effektiv Schlüsselelemente und Elemente, die sich für die Erstellung von To-Do-Listen eignen.

Die Hinzufügung der Audioverarbeitung steht im Einklang mit den jüngsten Verbesserungen von Gemini, einschließlich App-Integration, einer kartenbasierten visuellen Schnittstelle und erweiterten Personalisierungsoptionen. Mit dieser Funktion können Benutzer gespeicherte Audioprotokolle und Memos in durchsuchbare Inhalte umwandeln und so einen Prozess rationalisieren, für den zuvor externe Transkriptionssoftware erforderlich war.

Während andere KI-Assistenten wie ChatGPT (mit Whisper), Claude von Anthropic und Perplexity ebenfalls Audioverarbeitungsfunktionen bieten, ist die Implementierung von Gemini auf alltägliche Anwendungsfälle ausgerichtet. Benutzer können Gemini nutzen, um die Sprache zu vereinfachen, sprecherspezifische Kommentare zu isolieren, Fragen zu generieren und Studienführer aus Audioinhalten zu erstellen.

Allerdings kann die Nutzungshäufigkeit durch das 10-Minuten-Audiolimit und die täglichen Nutzungsobergrenzen für Benutzer des kostenlosen Kontingents eingeschränkt werden. Google hat noch keine formellen Preise für die Audioverarbeitung mit hoher Lautstärke veröffentlicht, da diese derzeit unter die reguläre Gemini-Quote fällt. Benutzer, die umfangreiche Audioinhalte verarbeiten möchten, sollten ihre Nutzung entsprechend verwalten.

Im Wesentlichen bietet die neue Audiofunktion von Gemini eine optimierte Möglichkeit, wertvolle Informationen aus Audiodateien zu verarbeiten und zu extrahieren, was es zu einem nützlichen Werkzeug für verschiedene persönliche und berufliche Anwendungen macht.