Das bahnbrechende große Sprachmodell von DeepSeek, R1, fasziniert die KI-Community seit langem wegen seiner Fähigkeit, mit Branchenriesen mit einem bemerkenswert geringen Budget zu konkurrieren. Ein neu in der Zeitschrift Nature veröffentlichter Artikel des DeepSeek AI-Teams gibt Aufschluss über die Einzelheiten: Das Modell wurde für nur 294.000 US-Dollar mit 512 Nvidia H800-Chips trainiert. Diese Enthüllung unterstreicht einen kosteneffektiven Ansatz, der die hohen Ausgaben von Wettbewerbern wie OpenAI in Frage stellt, und unterstreicht den innovativen Einsatz von auf Versuch und Irrtum basierendem Reinforcement Learning durch DeepSeek, um beeindruckende Ergebnisse zu erzielen.

Die Kerninnovation besteht darin, die traditionelle Abhängigkeit von teuren, von Menschen kommentierten Daten und Demonstrationen zu umgehen, die arbeitsintensiv sind und sich für komplexe Argumentationsaufgaben schlecht skalieren lassen. Stattdessen verwendete DeepSeek Techniken des verstärkenden Lernens, die ein Belohnung-Straf-System nachahmen. Wie die Assistenzprofessorin Daphne Ippolito von der Carnegie Mellon University und der Doktorand Yiming Zhang in einem begleitenden Artikel erklären, ähnelt diese Methode einem Kind, das durch Videospiele lernt: „Während das Kind seinen Avatar durch die Spielwelt navigiert, lernt es durch Versuch und Irrtum, dass für einige Aktionen (z. B. das Sammeln von Goldmünzen) Punkte gesammelt werden, während für andere (z. B. das Zusammentreffen mit Feinden) die Punktzahl auf Null zurückgesetzt wird. In ähnlicher Weise erhielt DeepSeek-R1 eine hohe Punktzahl, wenn es Fragen richtig beantwortete, und eine niedrige Punktzahl als es falsche Antworten gab.

Besonders effektiv erwies sich diese Verstärkungsstrategie bei Aufgaben mit nachweislich korrekten Antworten, etwa bei Mathematik- und Programmierproblemen. Im Gegensatz zu früheren Methoden, die Modelle dazu veranlassten, Schritt-für-Schritt-Erklärungen zu generieren, um die Genauigkeit zu verbessern, ordnete DeepSeek Bewertungen direkt den Ausgaben zu und ermutigte das Modell, so lange zu iterieren, bis es selbstständig das richtige Ergebnis erzielte. Das Ergebnis? Erhöhte Präzision, ohne dass menschliches Denken erforderlich ist, sodass DeepSeek trotz seiner bescheidenen Ressourcen wettbewerbsfähig bleiben kann.

Der Ansatz ist jedoch nicht ohne Einschränkungen. Während die Ergebnisse oft genauer sind, wird der interne Denkprozess des Modells für menschliche Beobachter weniger transparent. Als DeepSeek-R1 beispielsweise aufgefordert wurde, seinen Denkprozess zu erklären, gab es manchmal lange Antworten mit mehr als 10.000 Wörtern und wechselte unvorhersehbar zwischen Englisch und Chinesisch. Die Technik eignet sich hervorragend für binäre Richtig-oder-Falsch-Szenarien, gerät jedoch bei nuancierten oder subjektiven Abfragen ins Stocken, bei denen klare Bewertungsmetriken fehlen.

Die Erfolge von DeepSeek erfolgen vor dem Hintergrund einer umfassenderen Prüfung der Verbindungen des Unternehmens zur chinesischen Regierung, was Fragen zu möglichen Vorurteilen in seiner Technologie aufwirft. Jüngste Demonstrationen, über die die The Washington Post berichtete, enthüllten besorgniserregende Verhaltensweisen: Das Modell weigerte sich, Code mit erheblichen Sicherheitslücken zu generieren, als Eingabeaufforderungen darauf hindeuteten, dass es sich um Gruppen handelte, die von den chinesischen Behörden als sensibel eingestuft wurden. Umgekehrt produzierte es weniger sicheren Code für Themen im Zusammenhang mit Tibet, Taiwan, der religiösen Bewegung Falun Gong oder sogar dem Islamischen Staat, was auf eingebettete geopolitische Einflüsse schließen lässt, die sich auf seinen weltweiten Einsatz auswirken könnten.

Dieses Papier entmystifiziert nicht nur das effiziente Trainingsparadigma von DeepSeek, sondern löst auch Diskussionen über die Zukunft der KI-Entwicklung aus. Durch die Nutzung von Reinforcement Learning können kleinere Akteure wie DeepSeek potenziell gleiche Wettbewerbsbedingungen gegenüber ressourcenintensiven etablierten Unternehmen schaffen. Dennoch dient die Einbeziehung nationaler Sensibilitäten als warnender Hinweis und unterstreicht die Notwendigkeit von Transparenz und ethischer Aufsicht bei KI-Innovationen. Während sich die Branche weiterentwickelt, könnten solche Enthüllungen weltweit zu kostensparenden Methoden inspirieren, sofern sie die zugrunde liegenden Risiken berücksichtigen.