Forscher von DeepSeek haben am Montag ein neues experimentelles Modell, V3.2-exp, veröffentlicht, das bei der Verwendung in Operationen mit langem Kontext deutlich niedrigere Inferenzkosten aufweisen soll. DeepSeek kündigte das Modell in einem Beitrag auf Hugging Face an und veröffentlichte außerdem eine verlinkte wissenschaftliche Arbeit auf GitHub, die Details zu seiner Architektur und Leistung enthält.
Das wichtigste Merkmal des Modells heißt DeepSeek Sparse Attention. Dieses System verwendet ein als „Lightning Indexer“ bezeichnetes Modul, um bestimmte Auszüge aus dem Kontextfenster zu priorisieren. Nach diesem Schritt wählt ein separates System, ein „feingranulares Token-Auswahlsystem“, bestimmte Token aus diesen Auszügen aus. Diese ausgewählten Token werden dann in das begrenzte Aufmerksamkeitsfenster des Moduls geladen. Diese Kombination ermöglicht es dem Sparse-Attention-Modell, über lange Kontextabschnitte mit vergleichsweise geringer Serverlast zu arbeiten.
Die Vorteile des Systems sind für Operationen mit langem Kontext erheblich. Von DeepSeek durchgeführte vorläufige Tests ergaben, dass der Preis eines einfachen API-Aufrufs in diesen Situationen um bis zur Hälfte gesenkt werden könnte. Weitere Tests sind erforderlich, um eine fundiertere Bewertung der Behauptungen zu erstellen. Das Modell ist offen gewichtet und auf Hugging Face frei verfügbar, sodass Tests Dritter die in der Arbeit vorgestellten Ergebnisse bewerten können.
Das neue Modell von DeepSeek ist Teil einer Reihe jüngster Durchbrüche, die sich mit dem Problem der Inferenzkosten befassen. Bei diesen Kosten handelt es sich um die Serverkosten für den Betrieb eines vorab trainierten KI-Modells, die sich von den Kosten für dessen Training unterscheiden. Die Forscher von DeepSeek suchten nach Möglichkeiten, die grundlegende Transformatorarchitektur effizienter zu gestalten, und stellten fest, dass erhebliche Verbesserungen vorgenommen werden müssen.
DeepSeek mit Sitz in China ist eine ungewöhnliche Figur im KI-Sektor, insbesondere für diejenigen, die die KI-Forschung als einen nationalistischen Kampf zwischen den USA und China betrachten. Aufsehen erregte das Unternehmen Anfang des Jahres mit seinem R1-Modell, das vor allem mit Reinforcement Learning zu weitaus geringeren Kosten als seine amerikanischen Konkurrenten trainiert wurde. Allerdings löste das Modell keine umfassende Revolution im KI-Training aus, wie einige vorhergesagt hatten, und das Unternehmen ist in den Monaten seitdem aus dem Rampenlicht gerückt.
Der neue „Spärliche Aufmerksamkeit“-Ansatz wird wahrscheinlich nicht den gleichen Aufruhr hervorrufen wie R1, könnte US-Anbietern aber dennoch einige dringend benötigte Tricks beibringen, um die Inferenzkosten niedrig zu halten.







