ChatGPT hat trotz Fortschritten im zugrunde liegenden Modell weiterhin Probleme mit einer grundlegenden Zählaufgabe. Der Chatbot gibt fälschlicherweise an, dass das Wort „Strawberry“ zwei „r“-Buchstaben enthält, obwohl die tatsächliche Anzahl drei beträgt. Dieses Problem besteht auch in der neuesten Version, GPT-5.2, die im Dezember 2025 veröffentlicht wurde, weiterhin.
Moderne KI-Systeme bewältigen komplexe Vorgänge problemlos, etwa das Generieren von Marketingbildern, das Zusammenstellen von Berichten über Agentenbrowser oder das Komponieren von Songs, die die Charts anführen. Bei einfachen Aufgaben, die ein Siebenjähriger mühelos erledigen könnte, scheitern sie jedoch. Das Zählen der „r“ in „strawberry“ verdeutlicht diese Lücke. Das Wort zerfällt als s-t-r-a-w-b-e-r-r-y, was drei Vorkommen des Buchstabens „r“ ergibt.
Aktuelle Tests bestätigen, dass das Problem weiterhin ungelöst ist. Nach der Einführung von GPT-5.2 ergaben Anfragen an ChatGPT eine direkte Antwort von „zwei“. Dies geschieht trotz Milliardeninvestitionen, erhöhter Hardwareanforderungen, die die RAM-Preise in die Höhe getrieben haben, und eines erheblichen weltweiten Wasserverbrauchs im Zusammenhang mit der KI-Schulung.
Die Hauptursache liegt im tokenisierten Ein- und Ausgabedesign großer Sprachmodelle wie ChatGPT. Anstatt einzelne Buchstaben zu verarbeiten, unterteilt das System den Text in Token, bei denen es sich um ganze Wörter, Silben oder Wortteile handeln kann. Für „Strawberry“ enthüllt der OpenAI Tokenizer drei Token: „st“, „raw“ und „berry“. Nur zwei davon – „raw“ und „berry“ – enthalten den Buchstaben „r“. Das Modell zählt also Token mit „r“ und nicht mit einzelnen Buchstaben.
Diese Tokenisierung betrifft ähnliche Wörter. ChatGPT berichtet, dass „raspberry“ auch zwei „r“ hat, die das dritte übersehen. Das System behandelt „berry“ als einen einzelnen Token und komprimiert seine beiden „r“s zu einer Einheit. GPT-5.x verwendet die neuere Tokenisierungsmethode „o200k_harmony“, die mit OpenAI o1-mini und GPT-4o eingeführt wurde, aber der „Erdbeer“-Fehler bleibt bestehen.
OpenAI hat seit dem Debüt von ChatGPT Ende 2022 viele tokenbasierte Probleme behoben. In früheren Versionen traten Probleme mit bestimmten Phrasen auf, die unregelmäßige Antworten oder Verarbeitungsfehler auslösten. Patches haben Trainingsdaten angepasst und Systeme verbessert, indem sie Fälle wie die Schreibweise von „Mississippi“ – m-i-s-s-i-s-s-i-p-p-i – oder die Umkehrung von „Lollipop“ mit Buchstaben in der richtigen Reihenfolge gelöst haben.
Allerdings schneiden KI-Modelle bei der präzisen Zählung kleiner Werte im Allgemeinen schlecht ab, auch wenn sie in Mathematik und Problemlösung hervorragende Leistungen erbringen. Tests an klassischen problematischen Wörtern zeigten keine Fehler, die über den bekannten Erdbeerfall hinausgingen. ChatGPT hat „Mississippi“ und „Lollipop“ korrekt verarbeitet.
Ein bemerkenswerter Überrest ist die Zeichenfolge „solidgoldmagikarp“. In GPT-3 verursachte dieser Satz Zusammenbrüche, darunter Beleidigungen der Benutzer, unverständliche Ausgaben und Verarbeitungsfehler aufgrund von Tokenisierungs-Macken. GPT-5.2 vermeidet den Zusammenbruch, löst aber eine Halluzination aus: Es wird behauptet, „Solidgoldmagikarp“ sei ein geheimer Pokémon-Witz, der von Entwicklern in GitHub-Repositories versteckt wurde. Durch die Aktivierung sollen Avatare, Repo-Symbole und Funktionen in Pokémon-Elemente umgewandelt werden. Diese Behauptung ist völlig falsch, da sie auf die historischen Probleme der Saite zurückzuführen ist.
Andere KI-Modelle beantworten die „Erdbeer“-Frage richtig. Perplexity, Claude, Grok, Gemini, Qwen und Copilot identifizieren jeweils drei „r“. Sogar diejenigen, die OpenAI-Modelle nutzen, sind erfolgreich, weil sie unterschiedliche Tokenisierungssysteme verwenden, die einzelne Buchstaben besser erfassen.
ChatGPT fungiert als Vorhersage-Engine und stützt sich auf Trainingsmuster, um nachfolgenden Text zu antizipieren, und nicht auf echte Intelligenz auf Buchstabenebene. Die Tokenisierung gibt der Effizienz Vorrang vor dem wörtlichen Zählen und erklärt hartnäckige Macken wie das Erdbeerproblem.
Seit Ende 2022 hat OpenAI die Token-Verarbeitung iterativ verfeinert. Beim ersten Start wurden Schwachstellen bei bestimmten Zeichenfolgen festgestellt, was zu introspektiven Schleifen oder wütenden Reaktionen führte. Darauf zielten systematische Korrekturen ab, etwa die Buchstabenaufzählung „Mississippi“ und die Umkehrung „Lollipop“, die jetzt korrekt funktionieren.
Bei allen Modellen bestehen weiterhin umfassendere Einschränkungen bei der genauen Zählung. Trotz ihrer Stärken in der Arithmetik stellen Kleinwertzählungen eine Herausforderung für Transformatorarchitekturen dar. Der „solidgoldmagikarp“-Test unterstreicht anhaltende Token-Sensibilitäten, die sich von offensichtlichen Fehlern zu erfundenen Erzählungen entwickeln.
Vergleiche verdeutlichen die Rolle der Tokenisierung. Perplexity verwendet ein eigenes Schema, das eine präzise „r“-Erkennung in „strawberry“ ermöglicht. Claude von Anthropic, Grok von xAI, Gemini von Google, Qwen von Alibaba und Microsofts Copilot – alle geben die Zählung von drei zurück. Variationen in den Token-Grenzen ermöglichen eine Granularität auf Buchstabenebene, die im OpenAI-Setup nicht vorhanden ist.
Das OpenAI Tokenizer-Tool demonstriert die Aufteilung: „st-raw-berry“. „St“ fehlt „r“, während „raw“ eins und „berry“ zwei hat, aber als ein Token gezählt wird. „Raspberry“ folgt diesem Beispiel: Token komprimieren die letzten „r“.
Die Einführung von „o200k_harmony“ durch GPT-5.2 zielte auf eine verbesserte Effizienz gegenüber den Äras o1-mini und GPT-4o ab, die Erdbeer-Tokenisierung behält jedoch den Fehler bei. Die Patching-Historie von OpenAI legt nahe, dass gezielte Interventionen für die Expo funktionierensed-Fälle.
Frühes ChatGPT zeigte tokeninduzierte Spiralen bei nicht zählbaren Phrasen. „Solidgoldmagikarp“ veranschaulicht: Die Token-Verarbeitung von GPT-3 ist überlastet, was zu Chaos führt. GPT-5.2 formuliert es als nicht existierendes GitHub-Easter-Egg um und bewahrt Fehler durch Erfindung.
Tests bestätigen den Umfang der Korrekturen. „Mississippi“ listet jetzt 11 Buchstaben genau auf: vier „i“, vier „s“, zwei „p“, ein „m“. „Lollipop“ wird in „p-i-l-l-o-p-o-l“ umgewandelt, intakt.
Dennoch bleiben Kernzählungsdefizite bestehen. Modelle nähern sich in eingeschränkten Kontexten an, statt sie genau aufzuzählen.
Alternative Anbieter weichen über benutzerdefinierte Tokenizer aus. Der sucherweiterte Ansatz von Perplexity, das Verfassungstraining von Claude, die Echtzeitdaten von Grok, das multimodale Parsing von Gemini, die mehrsprachige Optimierung von Qwen und die Unternehmensoptimierung von Copilot – alle ermöglichen eine korrekte Erdbeerreaktion.
Diese Ungleichheit unterstreicht, dass die Tokenisierung von entscheidender Bedeutung ist. Die Bytepaar-Kodierung von OpenAI priorisiert häufige Unterwörter und opfert seltene Buchstabenverteilungen in Zusammensetzungen wie „Erdbeere“.
Historischer Kontext: Der Start Ende 2022 wird mit Berichten über Token-Macken überschwemmt. OpenAI reagierte mit schnellen Updates und eliminierte die meisten offensichtlichen Exploits bis 2025.
GPT-5.2, aktuell beim Schreiben, verkörpert kumulative Verbesserungen, behält aber Erdbeere als symbolischen Fehler bei.
Referenzhinweise zu verwandten Inhalten in der Seitenleiste: „Wussten Sie, dass ChatGPT dies kann?“ von Amir Bohlooli, vom 27. September 2025.








