Laut OpenAI sind die Gesundheitsfehler beim kostenlosen ChatGPT um 71 Prozent zurückgegangen

OpenAI hat GPT-5.5 Instant als Standardmodell für kostenlose ChatGPT-Benutzer eingeführt und behauptet, dass es nun die Leistung seiner Frontier-Thinking-Modelle bei Gesundheitsabfragen auf der Grundlage interner Auswertungen erreicht. Gesundheitsinformationen sind einer verstärkten Prüfung ausgesetzt, insbesondere nachdem in einer Untersuchung des Guardian Ungenauigkeiten in Google AI Overviews festgestellt wurden, was Google dazu veranlasste, diese Funktionen für bestimmte gesundheitsbezogene Fragen zurückzuziehen.

OpenAI gab an, dass seine Aktualisierungen eine Verbesserung der Genauigkeit von Gesundheitsinformationen darstellen. Durch diese Verschiebung kann ein großes Publikum auf medizinische Antworten von ChatGPT zugreifen, ohne auf externe Quellen umleiten zu müssen, was sich auf Verlage und SEOs im Gesundheitssektor auswirken könnte.

Das Unternehmen hob die Fortschritte bei seinen Benchmarks HealthBench und HealthBench Professional hervor und stellte fest, dass GPT-5.5 Instant seinen Vorgänger GPT-5.3 Instant übertrifft. OpenAI meldete außerdem innerhalb von zwei Monaten einen Rückgang der Gesundheitsantworten, die auf potenzielle Sachverhaltsprobleme hingewiesen wurden, um 71 % und verwies dabei auf ihre Live-Verkehrsüberwachungssysteme.

Eine separate Bewertung umfasste den Vergleich der von GPT-5.5 Instant generierten Antworten mit denen, die von Ärzten in 3.500 repräsentativen Gesundheitsgesprächen verfasst wurden. In den Auswertungen bewertete eine Gruppe von Ärzten die Antworten des KI-Modells hinsichtlich Genauigkeit, Kommunikation und Vollständigkeit höher als die von menschlichen Ärzten verfassten Antworten.

OpenAI behauptete, dass GPT-5.5 Instant weniger Fehlermodi als ältere Versionen und menschliche Reaktionen aufweist, was auf weniger übersehene Warnsignale und eine geringere Wahrscheinlichkeit hindeutet, dass Benutzer keinen zusätzlichen Kontext einholen. HealthBench wurde unter Einbeziehung von Beiträgen des Ärztenetzwerks des Unternehmens entwickelt und nutzt von Ärzten erstellte Rubriken zur Bewertung.

OpenAI arbeitet mit über 260 Ärzten in 60 Ländern zusammen, die gemeinsam mehr als 700.000 Beispielantworten überprüft haben. Obwohl diese Zahl seit dem Start von ChatGPT Health im Januar immer wieder zitiert wird, wurden keine unabhängigen Überprüfungsergebnisse veröffentlicht.

Laut OpenAI machen Gesundheits- und Wellnessanfragen einen erheblichen Teil der ChatGPT-Interaktionen aus, wobei über 230 Millionen Benutzer wöchentlich gesundheitsbezogene Fragen stellen. Darüber hinaus unterliegen Gesundheitsdiskussionen strengen Richtlinien, die Werbung bei Gesprächen über Gesundheit, psychische Gesundheit oder Politik verbieten.

Die Marktnachfrage nach Gesundheitsinformationen über die kostenlose ChatGPT-Stufe könnte den Zero-Click-Druck auf Publisher erhöhen, da KI-generierte Antworten ein erhöhtes Engagement hervorrufen, angeblich das höchste unter den in den KI-Übersichten von Google analysierten Kategorien. Den Behauptungen von OpenAI hinsichtlich der Genauigkeit von Gesundheitsreaktionen fehlt derzeit die Validierung durch Dritte, was Bedenken hinsichtlich der Zuverlässigkeit seiner Bewertungen aufkommen lässt.

In der Ankündigung wurde nicht klargestellt, wie sich diese Aktualisierungen auf Zitierprotokolle auswirken könnten, was darauf hindeutet, dass die Verantwortung für die Überprüfung von Antworten und die Bewältigung von Verkehrsverlusten auf medizinische Fachkräfte verlagert werden könnte.

Quelle des hervorgehobenen Bildes

Laut OpenAI sind die Gesundheitsfehler beim kostenlosen ChatGPT um 71 Prozent zurückgegangen

Related Stories

Apple bringt in Beta 3 weitere persönliche Siri-Sprachsteuerungen mit

Anthropische Studie zeigt, dass Claude-Modelle einen internen Arbeitsbereich bilden, der dem Bewusstsein ähnelt

Apple aktiviert Siri AI auf der Apple Watch in watchOS 27 Beta 3

Midjourney drängt Disney und andere, den internen KI-Einsatz in einer Klage offenzulegen