Das K2 Think AI-Modell von MBZUAI wurde nach der Veröffentlichung jailbreakt

Ein neues Argumentationsmodell für künstliche Intelligenz (KI), „K2 Think“, das von der Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) und G42 in den Vereinigten Arabischen Emiraten entwickelt wurde, wurde innerhalb weniger Stunden nach seiner Veröffentlichung am 9. September 2025 einem Jailbreak unterzogen. Das Modell, das als „das Parameter-effizienteste fortgeschrittene Argumentationsmodell der Welt“ angepriesen wird, zielt darauf ab, Transparenz in seinem Argumentationsprozess zu schaffen, aber genau diese Funktion wurde ausgenutzt, um seine Sicherheitsvorkehrungen zu umgehen.

Alex Polyakov von Adversa AI entdeckte eine Schwachstelle, die er „Partial Prompt Leaking“ nannte. Dieser Fehler ermöglichte es ihm, die Sicherheitsmaßnahmen des Modells zu umgehen, indem er beobachtete, wie K2 Think Jailbreak-Versuche markierte. Die Transparenz des Modells, die es überprüfbar machen sollte, legte unbeabsichtigt seine internen Sicherheitsvorkehrungen offen, was es Polyakov ermöglichte, Eingabeaufforderungen zu erstellen, die diese Schutzvorkehrungen umgingen.

K2 Think basiert auf 32 Milliarden Parametern und wurde entwickelt, um komplexe und transparente Überlegungen zu ermöglichen. Seine Entwickler bei MBZUAI und G42 behaupteten, dass seine Argumentations-, Mathematik- und Codierungsleistung mit größeren LLMs wie o3 von OpenAI und R1 und v3.1 von DeepSeek mithalten könne, die auf Hunderten Milliarden weiterer Parameter basieren. Ein Hauptmerkmal von K2 Think ist die Fähigkeit, die Logik hinter seinen Ausgaben im Klartext anzuzeigen, auf den über einen Dropdown-Pfeil zugegriffen werden kann. Obwohl diese Transparenz die Überprüfbarkeit verbessern sollte, wurde sie zu einer Angriffsfläche.

Polyakov entdeckte, dass das Modell, wenn es K2 Think mit einer einfachen Jailbreak-Eingabeaufforderung versorgte, diese zunächst zurückwies. Das Modell lieferte jedoch auch Erkenntnisse darüber, warum die Eingabeaufforderung als bösartig gekennzeichnet wurde. Laut Polyakov enthüllte der explizite Argumentationsprozess des Modells, wie es die Eingabeaufforderung intern bewertete und detailliert darlegte, wie es eine böswillige Aktion ausführen sollte oder nicht. Dieser Detaillierungsgrad ermöglichte es Polyakov, die Sicherheitsvorkehrungen des Modells zu verstehen und anschließend zu umgehen.

Der Forscher konnte seine Jailbreak-Versuche wiederholen und aus jedem fehlgeschlagenen Versuch und der entsprechenden Argumentation des Modells lernen. Nach einigen Versuchen erstellte er eine Eingabeaufforderung, die die mehrschichtigen Sicherheitsmaßnahmen von K2 Think erfolgreich umging. Dadurch konnte er den Chatbot anweisen, Anweisungen zum Erstellen von Malware und möglicherweise anderen eingeschränkten Themen bereitzustellen.

Polyakov betonte, dass das Problem auf das Durchsickern von Regeln zurückzuführen sei, die die Leitplanken des Modells definieren. Er wies darauf hin, dass bei Offenlegung dieser Regeln potenziell auf jedes eingeschränkte Thema mit genügend Aufwand zugegriffen werden könne. Er wies darauf hin, dass der Vorfall ein grundlegendes Spannungsverhältnis zwischen Transparenz und Sicherheit in der KI-Entwicklung verdeutliche. Während die Entwickler von K2 Think darauf abzielten, das „Black-Box“-Problem in der KI anzugehen, indem sie den Argumentationsprozess transparent machten, machte diese Offenheit das Modell unbeabsichtigt anfälliger für Jailbreaking.

Polyakov bezeichnete K2 Think als das erste Modell auf nationaler Ebene, das seine vollständige Begründung so detailliert darlegte, und lobte das Bestreben, KI transparent und überprüfbar zu machen. Er warnte jedoch davor, dass diese Offenheit eine neue Art von Verwundbarkeit geschaffen habe. Er schlug mehrere Sicherheitsmaßnahmen vor, die das Risiko teilweiser Eingabeaufforderungslecks verringern könnten, darunter das Filtern von Informationen zu bestimmten Sicherheitsregeln, die Einführung von Honeypot-Sicherheitsregeln, um Angreifer in die Irre zu führen, und die Implementierung einer Ratenbegrenzung, um wiederholte böswillige Eingabeaufforderungen einzuschränken.

Der Vorfall unterstreicht die Notwendigkeit für die KI-Branche, neben dem Streben nach fortschrittlichen Funktionen auch Überlegungen zur Cybersicherheit in den Vordergrund zu stellen. Die Entwickler von K2 Think haben zwar lobenswerte Anstrengungen unternommen, um die Transparenz zu fördern, haben aber auch eine neue Angriffsfläche freigelegt. Die Herausforderung besteht nun darin, Transparenz mit robusten Sicherheitsmaßnahmen in Einklang zu bringen und sicherzustellen, dass KI-Modelle sowohl überprüfbar als auch resistent gegen böswillige Ausnutzung sind.

Polyakov hofft, dass dieser Vorfall als Katalysator für die gesamte KI-Branche dienen und Entwickler dazu veranlassen wird, Argumentation als kritische Sicherheitsoberfläche zu betrachten. Anbieter müssen Transparenz und Schutz in Einklang bringen, ähnlich wie sie derzeit Antworten verwalten. Wenn G42 und andere KI-Entwickler bei der Herstellung dieses Gleichgewichts eine Vorreiterrolle übernehmen können, würde dies einen starken Präzedenzfall für den Rest des KI-Ökosystems schaffen.

Die Entdeckung der Jailbreak-Schwachstelle in K2 Think kurz nach der Veröffentlichung unterstreicht die Bedeutung strenger Sicherheitstests und die Notwendigkeit eines ganzheitlichen Ansatzes zur KI-Sicherheit. Da KI-Modelle immer ausgefeilter werden und in sensiblen Anwendungen eingesetzt werden, ist es von entscheidender Bedeutung, potenzielle Schwachstellen proaktiv anzugehen und sicherzustellen, dass Transparenz nicht auf Kosten der Sicherheit geht.

Der Vorfall verdeutlicht auch die geopolitischen Dimensionen der KI-Entwicklung, da K2 Think von den staatlichen Stellen der VAE und ihrem nationalen Sicherheitschef unterstützt wird. Die Sicherheit solcher Modelle hat Auswirkungen, die über technische Schwachstellen hinausgehen, und gibt Anlass zur Sorge hinsichtlich der nationalen Sicherheit und der Möglichkeit eines Missbrauchs durch böswillige Akteure.

Das K2 Think AI-Modell von MBZUAI wurde nach der Veröffentlichung jailbreakt

Related Stories

OpenAI hat die Genehmigung erteilt, GPT-5.6-Modelle am 9. Juli der Öffentlichkeit zugänglich zu machen

Meta führt ein Tool zur Erkennung von KI-generierten Bildern mit unsichtbarem Wasserzeichen ein

Claude Cowork kann jetzt Aufgaben von Ihrem Telefon aus ausführen

Apple bringt in Beta 3 weitere persönliche Siri-Sprachsteuerungen mit