Anthropic hat sich für die heimliche Drosselung seines KI-Modells Claude Fable 5 mit versteckten Leitplanken entschuldigt, die die Entwicklung für Forscher und Konkurrenten behindern. Das Unternehmen erklärte, es werde die Transparenz darüber verbessern, wann diese Einschränkungen gelten, auch wenn dies dazu führen würde, dass Fable weitere Anfragen ablehnte.
Fable ist das erste allgemein verfügbare Modell in der Mythos-Klasse von KI-Systemen von Anthropic, von denen das Unternehmen gewarnt hat, dass sie zu gefährlich für eine öffentliche Veröffentlichung sind. Es wurde mit Sicherheitsmaßnahmen gestartet, die es daran hindern, auf bestimmte „risikoreiche“ Anfragen zu antworten.
Ein Bereich mit Einschränkungen ist die Destillation, eine Methode zum Trainieren kleinerer Modelle unter Verwendung der Ergebnisse größerer Modelle. In der Systemkarte von Fable gab Anthropic an, dass Antworten auf Anfragen, die als Destillationsversuche wahrgenommen werden, verändert und herabgestuft würden, ohne die Benutzer über diese Änderungen zu informieren.
Bei Anfragen, bei denen es sich vermutlich um Destillationsversuche handelt, wird jetzt standardmäßig Claude Opus 4.8, das frühere Flaggschiffmodell des Unternehmens, verwendet, und Benutzer erhalten in jedem Fall Benachrichtigungen. Dieser Fallback gilt auch für andere Hochrisikobereiche wie Biologie, Chemie und Cybersicherheit, es sei denn, diese Abfragen sind aufgrund umfassenderer Sicherheitsvorschriften zu Themen wie Drogen und Waffen vollständig blockiert.
Das Unternehmen räumte ein, dass seine Sicherheitsmaßnahmen Fable aufgrund übermäßiger Einschränkungen versehentlich für grundlegende Fragen in Bereichen wie der Biologie nahezu unbrauchbar gemacht haben. Anthropic gab zu, dass der Einsatz unsichtbarer Schutzmaßnahmen ein Fehler war und betonte, dass Transparenz bei Sicherheitsmaßnahmen von entscheidender Bedeutung sei.
The company’s decision to conceal restrictions faced significant backlash from the AI research community, which argued that it limited the model’s capabilities for both evaluators and competitors. Anthropic gab an, dass die Verwendung von Claude zur Erstellung konkurrierender Modelle gegen seine Nutzungsbedingungen verstoße, und hatte zuvor Konkurrenten, darunter DeepSeek, vorgeworfen, seine Modelle im industriellen Maßstab zu destillieren.
„Sichtbare Schutzmaßnahmen können getestet werden, daher müssen sie robust sein, und es braucht Zeit, bis sie richtig umgesetzt werden“, schrieb Anthropic. „Unsichtbare Sicherheitsmaßnahmen können gezielter eingesetzt werden, sodass wir schnell und mit sehr wenigen Fehlalarmen liefern können. Aus diesem Grund haben wir uns für unsichtbare Sicherheitsmaßnahmen entschieden – und das war der falsche Kompromiss. Sie sollten Einblick in die Sicherheitsmaßnahmen haben, die wir haben, und warum. Es tut uns leid, dass wir nicht die richtige Balance gefunden haben“, fügte das Unternehmen hinzu.








