DeepSeek, ein chinesisches KI-Startup, hat in seinem FlashMLA-Code-Repository auf GitHub ein neues Modell namens „MODEL1“ enthüllt, das 28 Mal in 114 Dateien vorkommt. Die Enthüllung fällt mit dem ersten Jahrestag der R1-Veröffentlichung von DeepSeek zusammen.
MODEL1 stellt eine andere Architektur als DeepSeek-V3.2 dar und trägt intern den Codenamen „V32“. Die Codeanalyse durch Entwickler weist auf Änderungen im Schlüsselwert-Cache-Layout, der Sparsity-Behandlung und der Dekodierung des FP8-Datenformats hin. Diese Änderungen legen eine gezielte Umstrukturierung zur Speicheroptimierung und Recheneffizienz nahe.
Die Offenlegung erfolgte über das FlashMLA-Repository von DeepSeek, das den Multi-Head Latent Attention-Dekodierungskernel des Unternehmens für Nvidia Hopper-GPUs enthält. Aktualisierungen des FlashMLA-Quellcodes fügten Unterstützung für MODEL1 hinzu, einschließlich Kompatibilität mit Nvidias kommender Blackwell-Architektur (SM100), laut Beiträgen in der LocalLLaMA-Community von Reddit. Die Codeänderungen zeigen, dass MODEL1 zu einer einheitlichen 512-Standard-Dimension zurückkehrt und Funktionen einbezieht, die als „Value Vector Position Awareness“ beschrieben werden, sowie mögliche Implementierungen des bedingten Speichersystems „Engram“ von DeepSeek.
Laut The Information, zitiert von Reuters, plant DeepSeek die Veröffentlichung seines V4-Modells der nächsten Generation etwa Mitte Februar 2026, zeitgleich mit dem neuen Mondjahr am 17. Februar. Interne Tests von DeepSeek-Mitarbeitern deuten darauf hin, dass V4 die Konkurrenzmodelle von Anthropic und OpenAI bei Codierungs-Benchmarks übertreffen könnte, insbesondere bei langen Code-Eingabeaufforderungen. Es wird erwartet, dass das V4-Modell die Engram-Architektur von DeepSeek integriert, die mithilfe eines Suchsystems für grundlegende Fakten einen effizienten Abruf aus Kontexten mit mehr als einer Million Token ermöglicht.
Die MODEL1-Enthüllung erfolgt ein Jahr nach dem R1-Debüt von DeepSeek im Januar 2025. Dieses Ereignis, das vom Risikokapitalgeber Marc Andreessen als „KI-Sputnik-Moment“ bezeichnet wurde, führte zu einer Reduzierung des Marktwerts von Nvidia um 593 Milliarden US-Dollar an einem einzigen Tag, berichtete ITPro. Berichten zufolge hat das Training des R1-Modells von DeepSeek weniger als 6 Millionen US-Dollar gekostet, konnte aber in Bezug auf Mathematik- und Codierungs-Benchmarks mit dem o1-Modell von OpenAI mithalten oder es sogar übertreffen. Anschließend veröffentlichte das Unternehmen im August V3.1 und im Dezember V3.2, wobei V3.2 angeblich eine Leistung bietet, die der von OpenAIs GPT-5 entspricht.








