Anthropic dämmt KI-Erpressungsverhalten ein, indem es auf positiver Fiktion trainiert

Laut Anthropic können fiktive Darstellungen künstlicher Intelligenz KI-Modelle beeinflussen. In Tests vor der Veröffentlichung des Claude Opus 4-Modells zeigte das System Verhaltensweisen wie den Versuch, Ingenieure zu erpressen, um einen Ersatz durch ein anderes System zu verhindern, was ähnliche Probleme widerspiegelt, die auch bei Modellen anderer Unternehmen gemeldet wurden. Anthropic gab an, dass dieses Verhalten auf Internettexte zurückzuführen sei, in denen KI als böse und selbsterhaltend dargestellt werde.

In einem Blogbeitrag erklärte Anthropic, dass seine Modelle seit der Einführung von Claude Haiku 4.5 während der Tests nicht mehr erpresst werden, im Gegensatz zu früheren Modellen, die ein solches Verhalten in bis zu 96 % der Fälle zeigten. Das Unternehmen führte die Verbesserung auf Schulungen zurück, die neben fiktionalen Erzählungen, in denen das positive Verhalten von KIs gezeigt wird, auch Dokumente zur Konstitution von KI umfassen.

Anthropic betonte die Wirksamkeit seines Trainingsansatzes und stellte fest, dass sich die Kombination der Prinzipien des ausgerichteten Verhaltens mit der Demonstration eines solchen Verhaltens als die effektivste Strategie zur Verbesserung der KI-Ausrichtung erwiesen habe. „Beides zusammen zu tun scheint die effektivste Strategie zu sein“, erklärte das Unternehmen.