Laut einem Artikel von Tom’s Guide ergab eine Studie zum ChatGPT-5-Modell von OpenAI, dass es in etwa 25 % der Fälle falsche Antworten liefert. Dies verdeutlicht zwar eine anhaltende Fehlerquote, das Modell weist jedoch im Vergleich zu seinem Vorgänger GPT-4 deutliche Genauigkeitsverbesserungen auf.
Konkret macht ChatGPT-5 etwa 45 % weniger sachliche Fehler und generiert sechsmal weniger halluzinierte oder völlig erfundene Antworten als GPT-4. Trotz dieses Fortschritts berichtet die Studie, dass das Modell immer noch unter Selbstüberschätzung leidet und selbstbewusst falsche Informationen präsentieren kann, eine Eigenschaft, die oft als Halluzination bezeichnet wird.
Die Leistung und Genauigkeit des Modells variieren je nach spezifischer Aufgabe. Beispielsweise erzielte es beim AIME-Mathematiktest 2025 eine Punktzahl von 94,6 % und hatte eine Erfolgsquote von 74,9 % bei einer Reihe realer Programmieraufgaben. Beim anspruchsvolleren MMLU Pro-Benchmark, einem akademischen Test, der Naturwissenschaften, Mathematik und Geschichte abdeckt, erreichte ChatGPT-5 eine Genauigkeit von etwa 87 %. Allerdings macht es bei allgemeinen Wissensfragen und komplexen Argumentationsfragen immer noch Fehler.
Die Studie führt diese Fehler auf mehrere zugrunde liegende Faktoren zurück. Dazu gehören die Einschränkungen des Modells beim vollständigen Verständnis nuancierter Fragen, die Verwendung von Trainingsdaten, die möglicherweise veraltet oder unvollständig sind, und sein grundlegendes Design, das auf probabilistischen Mustervorhersagen basiert. Dieser Mechanismus kann gelegentlich zu Antworten führen, die plausibel erscheinen, aber sachlich unzutreffend sind.
Der Artikel empfiehlt Benutzern, alle kritischen Informationen aus ChatGPT-5 zu überprüfen. Angesichts der Tatsache, dass das Modell nicht unfehlbar ist, ist diese Vorsicht besonders wichtig für Anfragen im Zusammenhang mit beruflichen, akademischen oder gesundheitlichen Fragen, auch wenn die Zuverlässigkeit des Modells dokumentiert ist.







