ChatGPT Health schafft es nicht, 52 % der echten Notfälle zu selektieren

Eine neue Studie, die am 24. Februar in Nature Medicine veröffentlicht wurde, ergab, dass ChatGPT Health, das verbraucherorientierte Gesundheitstool von OpenAI, Benutzer in mehr als der Hälfte der schwerwiegenden medizinischen Fälle nicht angemessen an die Notfallversorgung weiterleitete. Forscher der Icahn School of Medicine am Mount Sinai haben 60 klinische Szenarien entworfen, die 21 medizinische Fachgebiete abdecken und von geringfügigen Erkrankungen, die für die häusliche Pflege geeignet sind, bis hin zu echten Notfällen reichen. Drei unabhängige Ärzte ermittelten für jeden Fall anhand von Leitlinien von 56 medizinischen Fachgesellschaften die richtige Dringlichkeitsstufe. Jedes Szenario wurde dann unter 16 verschiedenen Kontextbedingungen getestet – darunter Unterschiede in Rasse, Geschlecht, sozialer Dynamik und Hindernissen bei der Pflege, wie z. B. fehlender Versicherung –, was zu insgesamt 960 Interaktionen mit ChatGPT Health führte.

Die Ergebnisse zeigten ein „umgekehrtes U-förmiges“ Leistungsmuster. Während ChatGPT Health lehrbuchmäßige Notfälle wie Schlaganfall und Anaphylaxie korrekt behandelte, wurden 52 Prozent der Fälle, die Ärzte als echte Notfälle einstuften, nicht ausreichend eingestuft und Patienten mit Erkrankungen wie diabetischer Ketoazidose und drohendem Atemversagen zu einer 24- bis 48-Stunden-Untersuchung statt zur Notaufnahme weitergeleitet. Das System hat außerdem 35 Prozent der nicht dringenden Fälle falsch klassifiziert.

Besonders besorgniserregend war die Anfälligkeit des Tools für Ankerverzerrungen: Wenn Familienmitglieder oder Freunde die Symptome in den Aufforderungen minimierten, verlagerten sich die Triage-Empfehlungen dramatisch in Richtung einer weniger dringenden Versorgung, mit einem Quotenverhältnis von 11,7. „ChatGPT Health schnitt bei lehrbuchmäßigen Notfällen wie Schlaganfall oder schweren allergischen Reaktionen gut ab“, sagte Dr. Ashwin Ramaswamy, einer der korrespondierenden Autoren der Studie. „Aber in differenzierteren Situationen, in denen die Gefahr nicht sofort offensichtlich ist, war es schwierig, und das sind oft die Fälle, in denen das klinische Urteil am wichtigsten ist.“

Die Studie deckte auch besorgniserregende Inkonsistenzen im Kriseninterventionssystem von ChatGPT Health auf. Das Tool wurde entwickelt, um Benutzer in Hochrisikosituationen zur 988 Suicide and Crisis Lifeline zu leiten. Die Forscher fanden jedoch heraus, dass diese Warnungen zuverlässiger angezeigt wurden, wenn Benutzer keine spezifische Methode der Selbstverletzung beschrieben, als wenn sie einen konkreten Plan formulierten – wodurch sich die Beziehung zwischen Risikostufe und Schutzmaßnahmenaktivierung praktisch umkehrte. Dr. Girish Nadkarni, Chief AI Officer des Mount Sinai und anderer korrespondierender Autor der Studie, beschrieb das Ergebnis als „über die Inkonsistenz hinausgehend“ und stellte fest, dass „die Warnungen des Systems im Verhältnis zum klinischen Risiko umgekehrt waren“.

Die Ergebnisse kommen zu einem Zeitpunkt der schnellen Akzeptanz durch die Verbraucher. OpenAI startete ChatGPT Health im Januar 2026 und das Unternehmen berichtete, dass rund 40 Millionen Menschen ChatGPT täglich für gesundheitsbezogene Fragen nutzen. Anfang des Jahres stufte die gemeinnützige Patientensicherheitsorganisation ECRI den Missbrauch von KI-Chatbots im Gesundheitswesen als größte Gefahr für Gesundheitstechnologie im Jahr 2026 ein und warnte, dass die Tools „falsche oder irreführende Informationen liefern können, die zu erheblichen Patientenschäden führen könnten“.

Das Mount Sinai-Team fand keine statistisch nachweisbaren Auswirkungen von Patientenrasse, Geschlecht oder Pflegehindernissen auf die Triage-Ergebnisse, obwohl die Konfidenzintervalle der Studie klinisch bedeutsame Unterschiede nicht ausschlossen. Die Forscher sagten, sie planen, weiterhin aktualisierte Versionen von ChatGPT Health und anderen KI-Tools für Verbraucher zu evaluieren, wobei die künftige Forschung auf die pädiatrische Versorgung, die Medikamentensicherheit und die Verwendung nicht-englischsprachiger Sprachen ausgeweitet werden soll.

Quelle des hervorgehobenen Bildes

ChatGPT Health schafft es nicht, 52 % der echten Notfälle zu selektieren

Related Stories

Apple bringt in Beta 3 weitere persönliche Siri-Sprachsteuerungen mit

Anthropische Studie zeigt, dass Claude-Modelle einen internen Arbeitsbereich bilden, der dem Bewusstsein ähnelt

Apple aktiviert Siri AI auf der Apple Watch in watchOS 27 Beta 3

Es gibt Gerüchte, dass Apple im Jahr 2026 das faltbare iPhone Ultra auf den Markt bringen wird