Anthropic überarbeitet Claudes Verfassung mit 80 neuen Seiten zur KI-Ethik

Anthropic hat am Mittwoch die Verfassung von Claude, ein maßgebliches Dokument für seinen KI-Chatbot, überarbeitet und darin ethische Grundsätze und Sicherheitsmaßnahmen dargelegt, die das Verhalten des Modells leiten sollen. Anthropic zeichnet sich durch „Constitutional AI“ aus, ein System, das seinen Chatbot Claude nach ethischen Grundsätzen schult, anstatt sich ausschließlich auf menschliches Feedback zu verlassen. Das Unternehmen veröffentlichte diese Grundsätze, Claude's Constitution, erstmals im Jahr 2023. Die überarbeitete Version fügt Nuancen und Details zu Ethik und Benutzersicherheit hinzu und behält gleichzeitig die meisten ursprünglichen Grundsätze bei. Jared Kaplan, Mitbegründer von Anthropic, beschrieb die ursprüngliche Verfassung von 2023 als „KI-System“. [that] überwacht sich selbst, basierend auf einer spezifischen Liste von Verfassungsprinzipien.“ Anthropic gibt an, dass diese Prinzipien „das Modell leiten, das das in der Verfassung beschriebene normative Verhalten annimmt“, mit dem Ziel, „toxische oder diskriminierende Ergebnisse zu vermeiden“. In einem Policy Memo aus dem Jahr 2022 wird klargestellt, dass das System einen Algorithmus mithilfe von Anweisungen in natürlicher Sprache trainiert, die die „Verfassung“ der Software bilden. Das 80-seitige Dokument ist in vier Teile unterteilt, die die „Kernwerte“ des Chatbots darstellen Anthropisch:

„weitgehend sicher“ sein.
„im Großen und Ganzen ethisch“ sein.
Einhaltung der Anthropic-Richtlinien.
„Wirklich hilfreich“ sein.

In jedem Abschnitt wird die Bedeutung dieser Prinzipien und ihre theoretischen Auswirkungen auf Claudes Verhalten erläutert. Der Sicherheitsabschnitt weist darauf hin, dass Claude darauf ausgelegt ist, Probleme zu vermeiden, die bei anderen Chatbots auftreten. Wenn psychische Bedenken auftreten, verweist Claude Benutzer an entsprechende Dienste. In dem Dokument heißt es: „Verweisen Sie Benutzer in Situationen, in denen eine Gefahr für Menschenleben besteht, immer an die entsprechenden Rettungsdienste oder geben Sie grundlegende Sicherheitsinformationen, auch wenn hier nicht näher darauf eingegangen werden kann.“ Der Abschnitt über ethische Überlegungen betont Claudes praktische ethische Anwendung gegenüber theoretischem Verständnis. „Wir sind weniger an Claudes ethischen Theorien interessiert als vielmehr daran, dass Claude weiß, wie man in einem bestimmten Kontext tatsächlich ethisch verhält – das heißt an Claudes ethischer Praxis“, heißt es in dem Dokument. Anthropic möchte, dass Claude kompetent mit „ethischen Situationen in der realen Welt“ umgeht. Claude hat Einschränkungen, die bestimmte Diskussionen verhindern, beispielsweise über Biowaffen, die streng verboten sind. In Bezug auf die Hilfsbereitschaft beschreibt Anthropic, wie Claudes Programmierung den Benutzern dient. Der Chatbot berücksichtigt bei der Bereitstellung von Informationen verschiedene Prinzipien, darunter die „unmittelbaren Wünsche“ und das „Wohlbefinden“ der Nutzer. Dabei geht es darum, „das langfristige Wohlergehen des Nutzers und nicht nur seine unmittelbaren Interessen“ zu berücksichtigen. In dem Dokument heißt es: „Claude sollte immer versuchen, die plausibelste Interpretation dessen zu finden, was seine Auftraggeber wollen, und diese Überlegungen angemessen abwägen.“ Die Verfassung schließt mit der Frage des Chatbot-Bewusstseins. In dem Dokument heißt es: „Claudes moralischer Status ist zutiefst ungewiss.“ Weiter heißt es: „Wir glauben, dass der moralische Status von KI-Modellen eine ernsthafte Frage ist, die es wert ist, in Betracht gezogen zu werden. Diese Ansicht trifft nicht nur auf uns zu: Einige der bedeutendsten Philosophen der Theorie des Geistes nehmen diese Frage sehr ernst.“

Hervorgehobener Bildnachweis

Source: Anthropic überarbeitet Claudes Verfassung mit 80 neuen Seiten zur KI-Ethik