In einer bahnbrechenden Forschungsarbeit, die von OpenAI veröffentlicht wurde, haben Forscher eine strenge mathematische Erklärung dafür geliefert, warum große Sprachmodelle (LLMs) wie ChatGPT häufig halluzinieren und so selbstbewusst falsche Informationen generieren. Die am 16. September 2025 von Wei Xing in The Conversation veröffentlichte Studie argumentiert, dass es sich bei diesem Problem nicht nur um einen Trainingsfehler handelt, sondern um eine inhärente Folge der Funktionsweise dieser Modelle. Das Papier bietet zwar potenzielle Lösungen an, unterstreicht jedoch, dass deren Umsetzung die Benutzererfahrung beeinträchtigen und die Rechenkosten in die Höhe schnellen lassen könnte, was eine breite Akzeptanz für Verbraucheranwendungen unwahrscheinlich macht.

Das Kernproblem ergibt sich aus der autoregressiven Natur von LLMs, die Antworten generieren, indem sie jeweils ein Wort auf der Grundlage von aus Trainingsdaten abgeleiteten Wahrscheinlichkeiten vorhersagen. Dieser sequentielle Prozess führt zwangsläufig zu einer Fehlerakkumulation. Den Forschern zufolge ist die Gesamtfehlerquote bei der Generierung eines ganzen Satzes mindestens doppelt so hoch wie die Fehlerquote bei einer einfachen Ja/Nein-Frage. Wenn ein Modell beispielsweise bei binären Abfragen eine Fehlerquote von 10 % aufweist, können sich Fehler auf Satzebene auf 20 % oder mehr verdoppeln, da sich die Ungenauigkeiten über mehrere Token hinweg verstärken.

Halluzinationen werden im Wesentlichen durch die Fähigkeit des Modells begrenzt, gültige und ungültige Antworten zu klassifizieren, eine Aufgabe, die sich in verschiedenen Wissensbereichen als Herausforderung erweist. Selbst bei fehlerfreien Trainingsdaten gewährleistet der probabilistische Vorhersagemechanismus ein gewisses Maß an unvermeidlichen Unwahrheiten. Das Papier betont, dass die Seltenheit von Informationen in Trainingsdatensätzen dies noch verschärft. Fakten, die selten auftauchen, sind anfälliger für falsche Erinnerungen oder Fälschungen.

Ein markantes Beispiel sind Geburtstage berühmter Persönlichkeiten. Die Analyse ergab, dass, wenn 20 % dieser Geburtstage nur einmal in den Trainingsdaten vorkommen, die Basis-LLMs voraussichtlich bei mindestens 20 % der zugehörigen Abfragen fehlerhaft sein werden. Zur Veranschaulichung testeten die Forscher am Geburtstag von Adam Kalai, einem der Mitautoren des Papiers, hochmoderne Modelle. Das Modell DeepSeek-V3 gab in verschiedenen Versuchen drei völlig falsche Daten aus: „03-07“, „15-06“ und „01-01“. Der tatsächliche Termin fällt in den Herbst und verdeutlicht, wie Models selbstbewusst Details behaupten können, die weit von der Realität entfernt sind.

Erschwerend kommt hinzu, dass in KI-Benchmarks ein Bewertungsrahmen verwendet wird. Die Studie untersuchte zehn wichtige Benchmarks, darunter die von Google, OpenAI und führenden KI-Bestenlisten. Neun von ihnen verwenden binäre Bewertungssysteme, die für Äußerungen von Unsicherheit, wie zum Beispiel „Ich weiß nicht“, null Punkte vergeben. Dieser Aufbau setzt ehrliche Eingeständnisse von Unwissenheit mit völligen Fehlern gleich und schafft einen perversen Anreiz für Modelle, immer zu raten, anstatt sich der Stimme zu enthalten.

Mathematisch beweisen die Forscher, dass bei binärer Auswertung das Raten zu einem höheren erwarteten Ergebnis führt als das Zurückhalten einer Antwort, unabhängig von der wahren Wahrscheinlichkeit der Richtigkeit. Wenn ein Modell auch nur eine geringe Chance hat – sagen wir 1 % – Recht zu haben, überwiegt die potenzielle Belohnung die Strafe für die Enthaltung. Diese „Epidemie“ der Bestrafung von Unsicherheit, wie die Autoren es beschreiben, führt zu übertriebenen Ergebnissen und erstickt den Fortschritt hin zu einer zuverlässigeren KI.

Die von OpenAI vorgeschlagene Abhilfe besteht darin, die Vertrauensschätzung in den Entscheidungsprozess des Modells zu integrieren. Bevor die KI reagiert, bewertet sie ihren Sicherheitsgrad und fährt erst dann fort, wenn dieser einen vordefinierten Schwellenwert überschreitet. Die Benchmarks würden dann angepasst, um auf der Grundlage dieser Konfidenz Punkte zu erzielen, etwa durch eine stärkere Bestrafung von Fehlern (z. B. -3 Punkte), während richtige Antworten (+1 Punkt) belohnt werden und bei Fällen mit geringer Konfidenz eine Enthaltung zugelassen wird.

Der mathematische Rahmen zeigt, dass geeignete Schwellenwerte Modelle dazu ermutigen würden, Unsicherheit auf natürliche Weise auszudrücken und so Halluzinationen zu reduzieren. Die praktische Umsetzung weist jedoch erhebliche Nachteile auf. Das Papier schätzt, dass die Anwendung eines Konfidenzschwellenwerts von 75 % dazu führen könnte, dass ChatGPT aufgrund sachlicher Lücken in den Trainingsdaten auf etwa 30 % der Anfragen mit „Ich weiß nicht“ antwortet. Benutzer, die an sofortige, verbindliche Antworten gewöhnt sind, finden dies möglicherweise frustrierend und wechseln zu weniger vorsichtigen Alternativen.

Wei Xing zieht eine Parallele zu seiner Beteiligung an einem Projekt zur Überwachung der Luftqualität in Salt Lake City, Utah. Wenn das System Unsicherheiten meldet – aufgrund widriger Wetterbedingungen oder Kalibrierung – sinkt das Engagement des Benutzers im Vergleich zur Anzeige sicherer, wenn auch ungenauer Messwerte. Diese Analogie unterstreicht eine breitere Vorliebe des Menschen für Gewissheit gegenüber Genauigkeit, was die Akzeptanz unsicherer KI im Verbraucherumfeld untergraben könnte.

Über die Benutzererfahrung hinaus stellen die Rechenanforderungen eine gewaltige Hürde dar. Die Quantifizierung der Unsicherheit erfordert die Bewertung mehrerer Antwortpfade und die Schätzung von Konfidenzintervallen, ein Prozess, der weitaus ressourcenintensiver ist als die Standard-Token-Vorhersage. Bei Diensten, die täglich Millionen von Anfragen bearbeiten, könnte dies die Betriebskosten dramatisch vervielfachen. Etablierte Unsicherheit quaBenachrichtigungsmethoden, die über Jahrzehnte in Bereichen wie Statistik und maschinellem Lernen entwickelt wurden, sind effektiv, aber rechenintensiv.

Fortgeschrittene Techniken wie aktives Lernen – bei dem die KI den Benutzern klärende Fragen stellt – könnten die Genauigkeit weiter verbessern, aber die Anforderungen noch weiter steigern. Diese Ansätze sind in Bereichen mit hohem Risiko möglich, in denen Fehler schwerwiegende Folgen haben. Beispielsweise rechtfertigen in der Lieferkettenlogistik, im Finanzhandel oder in der medizinischen Diagnostik die Kosten einer Halluzination (z. B. Umsatzeinbußen in Millionenhöhe oder Schaden für den Patienten) die Investition in vorsichtige, rechenintensive Systeme.

Beim Chip-Design oder beim Management der wirtschaftlichen Infrastruktur wird eine unsichere KI nicht nur realisierbar, sondern unverzichtbar. Das Papier stellt fest, dass sich die Wirtschaftlichkeit verschiebt, wenn KI-Agenten kritische Vorgänge überwachen: Die Kosten für gründliche Vertrauensprüfungen verblassen im Vergleich zu den Risiken übertriebener Fehler. Allerdings unterliegt die Verbraucher-KI, die die Entwicklungsprioritäten dominiert, anderen Regeln. Benutzer verlangen schnelle und sichere Antworten auf alle Fragen, von Wissenswertem bis hin zu Ratschlägen.

Benchmarks bevorzugen weiterhin Vermutungen, und Hardwareeffizienzen – wie sinkende Energiekosten pro Token oder verbesserte Chip-Architekturen – können letztendlich Hürden senken. Doch im Vergleich zu den heutigen rationalisierten Schätzungsmodellen wird die Handhabung von Unsicherheiten immer mehr Rechenleistung erfordern. Das Papier deckt versehentlich eine Fehlausrichtung der Geschäftsanreize auf: Geschwindigkeit und Vertrauen steigern den Gewinn bei Verbraucher-Apps, während Genauigkeit in den Hintergrund tritt.

Post-Training-Techniken, wie z. B. Reinforcement Learning from Human Feedback (RLHF), haben einige Halluzinationen gemildert, können aber die eigentlichen Ursachen nicht angehen. Die Forschung beweist, dass selbst optimierte Modelle diese mathematischen Unvermeidlichkeiten beibehalten. Bis sich Bewertungsstandards weiterentwickeln, um Nuancen zu belohnen, und die Computerökonomie Zuverlässigkeit vor Geschwindigkeit priorisiert, werden Halluzinationen ein Markenzeichen von LLMs für Verbraucher bleiben.

Diese Offenbarung stellt die Entwicklung der KI-Branche in Frage. Je größer und leistungsfähiger die Modelle werden, desto größer wird der Druck, Innovation und Vertrauenswürdigkeit in Einklang zu bringen. Die Arbeit von OpenAI erfordert einen Paradigmenwechsel und fordert Entwickler, Benchmark-Ersteller und Benutzer dazu auf, kalibrierte Antworten zu schätzen. In hochwertigen Sektoren scheint die Einführung unmittelbar bevorzustehen; Für Alltagswerkzeuge bleibt dies eine ferne Zukunftsperspektive.

Die Autoren des Papiers, darunter OpenAI-Forscher, kommen zu dem Schluss, dass das Streben nach einer fehlerfreien KI ohne eine Neuausrichtung der Anreize weiterhin schwer zu erreichen sein wird. Wie Wei Xing, Assistenzprofessor an der School of Mathematical and Physical Sciences der University of Sheffield, in dem von The Conversation unter einer Creative-Commons-Lizenz erneut veröffentlichten Artikel feststellt, „stehen die geschäftlichen Anreize, die die Entwicklung von KI für Verbraucher vorantreiben, grundsätzlich nicht mit der Reduzierung von Halluzinationen in Einklang.“

Diese Studie diagnostiziert nicht nur einen anhaltenden Fehler, sondern zeigt auch einen Weg nach vorne auf – einen, der Kompromisse zwischen Benutzerfreundlichkeit, Kosten und Wahrhaftigkeit erfordert. Da KI immer stärker in das tägliche Leben integriert wird, wird die Bewältigung dieser Spannungen für einen nachhaltigen Fortschritt von entscheidender Bedeutung sein.