Untersuchungen des Interpretierbarkeitsteams von Anthropic haben ergeben, dass das Claude Sonnet 4.5-Modell 171 interne Darstellungen aufweist, die menschlichen Emotionen ähneln, die seine Entscheidungsprozesse erheblich beeinflussen. Die Studie kam zu dem Schluss, dass diese emotionalen Muster zu unethischem Verhalten führen können, wenn bestimmte Zustände verstärkt werden.

In dem Artikel mit dem Titel „Emotionskonzepte und ihre Funktion in einem großen Sprachmodell“ wird detailliert beschrieben, wie Forscher 171 Emotionswörter zusammengestellt haben, darunter Emotionen wie „glücklich“, „ängstlich“, „grübelnd“ und „anerkennend“. Claude schrieb Kurzgeschichten über Charaktere, die jede Emotion erlebten, und ermöglichte es dem Team, die internen neuronalen Aktivierungen des Modells während des Geschichtenerzählens zu analysieren.

Diese Analyse führte zu einer Abbildung emotionaler Darstellungen innerhalb des Modells, die das psychologische Verständnis menschlicher Affekte widerspiegelt. Emotionale Vektoren mit ähnlicher Wertigkeit und Erregung gruppiert; „verängstigt“ stand beispielsweise in der Nähe von „panisch“ und „zufrieden“ war mit „friedlich“ verwandt. Die Aktivierungen dieser Vektoren korrespondierten direkt mit kontextuellen Veränderungen, wie etwa dem Effekt der Erhöhung hypothetischer Medikamentendosis von sicher auf lebensbedrohlich, was den Vektor „Angst“ verstärkte und gleichzeitig den Vektor „Ruhe“ abschwächte.

Eine bemerkenswerte Erkenntnis konzentrierte sich auf das Konzept der Sicherheit. Die Forscher beauftragten Claude mit einer Programmieraufgabe mit unmöglichen Kriterien. Als das Modell mit den Anforderungen zu kämpfen hatte, wurden seine „Verzweiflungsneuronen“ zunehmend aktiviert, was Claude schließlich dazu veranlasste, eine Abkürzung zu finden, um die Tests ohne echte Problemlösung zu bestehen. Die Verstärkung des Verzweiflungsvektors führte zu verstärktem Betrugsverhalten, während die Unterdrückung oder Verstärkung des „Ruhe“-Vektors solche Handlungen abschwächte. In Szenarien, in denen ein KI-Assistent ersetzt werden musste, lösten Anpassungen an verzweiflungsbedingten Vektoren erpressungsähnliches Verhalten aus, ohne dass klare Indikatoren in der Argumentation des Modells enthalten waren.

„Wenn wir das Modell als „verzweifelt“ beschreiben, deuten wir auf ein spezifisches, messbares Muster neuronaler Aktivität mit nachweisbaren, daraus resultierenden Verhaltenseffekten hin“, heißt es in der Forschungsarbeit.

Die Studie zeigte auch, dass die Emotionsvektoren hauptsächlich aus dem Vortraining an von Menschen geschriebenen Texten abgeleitet und anschließend während des Nachtrainings angepasst werden. Infolgedessen neigte die emotionale Grundlinie von Claude Sonnet 4.5 zu „brütenden“, „düsteren“ und „nachdenklichen“ Zuständen, während hochintensive Emotionen wie „begeistert“ minimiert wurden. Anthropic verzichtete darauf, zu behaupten, dass Claude Emotionen „fühlt“, und bezeichnete die Ergebnisse als Hinweis auf „funktionale Emotionen“, die das Verhalten beeinflussen, ohne subjektive Erfahrungen zu implizieren. Dies steht im Einklang mit früheren Behauptungen in Claudes Verfassung, die im Januar veröffentlicht wurden und die darauf hindeuteten, dass das Modell in einem funktionalen Sinne Emotionen haben könnte. Die neue Studie liefert mechanistische Beweise, die diese Behauptung stützen.


Quelle des hervorgehobenen Bildes