Am 12. September 2025 kündigten Amer S, ein Software-Ingenieur, und Ryan McKenna, ein Forschungswissenschaftler bei Google Research, VaultGemma an und bezeichneten es als das leistungsfähigste Sprachmodell, das von Grund auf mit Differential Privacy (DP) trainiert wurde. Diese Entwicklung kommt zu einem entscheidenden Zeitpunkt, da künstliche Intelligenz zunehmend in das tägliche Leben eindringt und dringende Anforderungen an datenschutzorientierte Designs entstehen. Differential Privacy geht diesen Bedenken entgegen, indem kalibriertes Rauschen in Trainingsprozesse integriert wird, um zu verhindern, dass Modelle sensible Daten speichern. Die Implementierung von DP in großen Sprachmodellen (LLMs) stellt jedoch erhebliche Herausforderungen dar, darunter Störungen der Trainingsstabilität, die Notwendigkeit größerer Batch-Größen und erhöhte Rechenkosten. Diese Kompromisse verändern die traditionellen Skalierungsgesetze, die die KI-Leistung regeln, sodass es für eine effektive private KI-Entwicklung unerlässlich ist, ihre Dynamik zu verstehen.
Die Ankündigung hebt eine gemeinsame Forschungsarbeit mit dem Titel „Scaling Laws for Differently Private Language Models“ hervor, die in Zusammenarbeit mit Google DeepMind durchgeführt wurde. Diese Studie stellt präzise Gleichungen auf, die die komplizierten Kompromisse zwischen Rechenressourcen, Datenschutzgarantien und Modellnutzen modellieren. Durch die Fokussierung auf das Noise-Batch-Verhältnis – eine Schlüsselmetrik, die den datenschutzbedingten Lärm mit den Batch-Größen vergleicht – vereinfacht die Forschung das komplexe Zusammenspiel dieser Faktoren. Die Kernerkenntnis besteht darin, dass die Modellleistung beim DP-Training vorwiegend durch dieses Verhältnis bestimmt wird, was es Forschern ermöglicht, optimale Konfigurationen zur Minimierung von Trainingsverlusten angesichts von Einschränkungen bei Rechenleistung, Datenschutz und Datenbudgets vorherzusagen.
Experimente zur Untermauerung dieser Skalierungsgesetze erstreckten sich über verschiedene Modellgrößen und Rausch-Chargen-Verhältnisse und bestätigten die zentrale Rolle des Verhältnisses. Das resultierende Framework modelliert den Verlust als Funktion der Modellgröße, der Anzahl der Trainingsiterationen und des Rausch-Batch-Verhältnisses und stellt so ein optimiertes Werkzeug für Praktiker bereit. Dieser Ansatz überwindet die exponentielle Komplexität des Testens aller möglichen Kombinationen durch die Nutzung deterministischer Beziehungen und empirischer Daten. Die Gesetze ermöglichen beispielsweise Abfragen wie die Bestimmung des besten Setups für ein festes Rechenbudget, den Datenschutzgrad (gemessen durch Epsilon, ε) und das Datenvolumen, um den geringsten Verlust zu erzielen.
Ein herausragendes Ergebnis der Forschung ist die synergistische Beziehung zwischen den Budgets. Allein die Erhöhung des Datenschutzbudgets führt zu sinkenden Erträgen aus dem Noise-Batch-Verhältnis, es sei denn, sie geht mit einer Erweiterung der Rechenleistung (gemessen in Gleitkommaoperationen oder FLOPs) oder der Daten (Tokens) einher. Visualisierungen aus der Studie veranschaulichen, wie sich optimale Konfigurationen verschieben: Unter strengeren Datenschutzbeschränkungen könnten Ressourcen größere Batchgrößen gegenüber größeren Modellen bevorzugen, während in datenbeschränkten Szenarien mehr Iterationen vorzuziehen sein könnten. Insbesondere zeigt die Analyse Flexibilität bei den Setups; Eine Reihe von Modellgrößen kann in Kombination mit abgestimmten Chargengrößen und Iterationen einen vergleichbaren Nutzen bieten.
Praktische Leitlinien sind klar erkennbar: Für die DP-Schulung sollten sich Praktiker für kleinere Modelle mit deutlich größeren Losgrößen im Vergleich zu Nicht-DP-Basislinien entscheiden. Dies steht im Einklang mit der DP-Expertise, die den Schwerpunkt auf große Chargen legt, um Lärmeffekten entgegenzuwirken. Allerdings variieren die Konfigurationen je nach Datenschutz und Datenbudgets, was die Notwendigkeit einer vernünftigen Ressourcenzuweisung unterstreicht. Diese Erkenntnisse, die im vollständigen Dokument detailliert beschrieben werden, ermöglichen es Entwicklern, Datenschutz und Leistung effizient in Einklang zu bringen.
Unter Nutzung dieses Frameworks erstellte das Team VaultGemma, ein 1-Milliarde-Parameter-Modell basierend auf Gemma 2, das für seinen Schwerpunkt auf Verantwortung und Sicherheit bekannt ist. Die Skalierungsgesetze steuerten die Berechnungsanforderungen und die Zuweisung über Batchgröße, Iterationen und Sequenzlänge hinweg, um den Nutzen zu maximieren. Eine wichtige algorithmische Innovation befasste sich mit der Poisson-Probenahme, die für optimale DP-Garantien beim stochastischen Gradientenabstieg (DP-SGD) unerlässlich ist. Die anfängliche einheitliche Chargenbildung wurde durch eine Poisson-Probenahme ersetzt, um Lärm zu minimieren und gleichzeitig eine robuste Privatsphäre zu gewährleisten. Dies führte zu Herausforderungen wie variablen Batchgrößen und zufälliger Datenreihenfolge, die durch Scalable DP-SGD gelöst wurden. Diese Methode ermöglicht Chargen mit fester Größe durch Auffüllen oder Zuschneiden, wobei die Privatsphäre gewahrt bleibt, ohne dass die Effizienz beeinträchtigt wird.
VaultGemma ist das größte vollständig mit DP vorab trainierte Open-Source-LLM. Die Gewichtungen sind jetzt auf Hugging Face und Kaggle verfügbar und werden von einem umfassenden technischen Bericht begleitet. Die Validierung der Skalierungsgesetze erwies sich als bemerkenswert genau; Der endgültige Trainingsverlust des Modells stimmte eng mit den Vorhersagen überein und bestätigte die Zuverlässigkeit des Frameworks für zukünftige private KI-Bemühungen.
Leistungsbewertungen positionieren VaultGemma wettbewerbsfähig. Es erreicht einen Nutzen, der mit dem nicht-privaten Gemma 3 1B-Modell und der älteren GPT-2 1.5B-Basislinie vergleichbar ist. Dies zeigt, dass moderne DP-Techniken die Fähigkeiten nicht-privater Modelle aus etwa fünf Jahren reproduzieren könnenvor, die Datenschutzprämie in Bezug auf Ressourcen zu quantifizieren. Downstream-Benchmarks untermauern dies weiter: Bei Aufgaben wie HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C und ARC-E entspricht VaultGemma seinem nicht-privaten Gegenstück und übertrifft die GPT-2-Basislinie ähnlicher Größenordnung. Diese Ergebnisse verdeutlichen Fortschritte bei der Schließung der Versorgungslücke, auch wenn weiterhin Herausforderungen bestehen.
Der Schutz der Privatsphäre ist sowohl theoretisch fundiert als auch empirisch überprüft. VaultGemma bietet DP auf Sequenzebene mit ε ≤ 2,0 und δ ≤ 1,1 × 10⁻¹⁰ für 1.024-Token-Sequenzen aus heterogenen Datenquellen und spiegelt damit die Trainingsmischung von Gemma 2 wider. Lange Dokumente werden in Sequenzen aufgeteilt, während kürzere gepackt werden, wodurch eine natürliche Einheit für den Datenschutz bei unterschiedlichen Daten entsteht. In der Praxis stellt dies sicher, dass, wenn ein privater Fakt in einer einzelnen Sequenz auftritt, die Ausgabe des Modells statistisch nicht von der eines nicht auf diese Sequenz trainierten Modells unterscheidbar bleibt – wodurch der Einfluss einer einzelnen Sequenz effektiv gelöscht wird. Für Fakten, die sich über mehrere Sequenzen erstrecken, ist Lernen möglich, aber DP auf Benutzerebene könnte den Schutz in benutzerzugeordneten Datenszenarien verbessern.
Empirische Tests verstärken diese Garantien. Das Anfordern des Modells mit 50-Token-Präfixen aus Trainingsdokumenten führte zu keinem erkennbaren Auswendiglernen der entsprechenden Suffixe, was die Wirksamkeit von DP bei der Eindämmung der Datenaufbewahrung unterstreicht.
Zusammenfassend lässt sich sagen, dass VaultGemma die Vision einer leistungsstarken, Privacy-by-Design-KI vorantreibt. Während zwischen DP- und Nicht-DP-Modellen eine Nutzenlücke besteht, bieten die neuen Skalierungsgesetze und Schulungsinnovationen einen systematischen Weg, diese Lücke zu schließen. Diese Version ermöglicht es der Community, sichere und verantwortungsvolle KI zu fördern, wobei die laufende Forschung zu DP-Mechanismen weitere Fortschritte erzielen wird.
Das Projekt würdigt die Beiträge der Datenschutzteams von Gemma und Google, einschließlich des Feedbacks von Peter Kairouz, Brendan McMahan und Dan Ramage zur Ankündigung. Die Visualisierungen wurden von Mark Simborg und Kimberly Schwede unterstützt, mit Unterstützung von Google-Teams in den Bereichen Algorithmen, Infrastruktur und Wartung. Zu den direkten Mitwirkenden zählen Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo Liu, Pasin Manurangsi, Thomas Mesnard, Andreas Terzis, Tris Warkentin, Da Yu und Chiyuan Zhang.
Diese Initiative veröffentlicht nicht nur ein bahnbrechendes Modell, sondern stellt auch grundlegende Tools für die Skalierung privater KI bereit. Während sich Unternehmen mit Datenschutzbestimmungen wie der DSGVO und neuen KI-Ethikstandards auseinandersetzen, veranschaulicht VaultGemma, wie mathematische Genauigkeit Innovation mit Schutz in Einklang bringen kann. Die offene Verfügbarkeit lädt zur globalen Zusammenarbeit ein und beschleunigt möglicherweise die Einführung in Bereichen wie dem Gesundheitswesen, dem Finanzwesen und personalisierten Diensten, in denen der Datenschutz an erster Stelle steht.
Die Untersuchung geht tiefer in die Skalierungsgesetze ein und geht davon aus, dass das Rausch-Batch-Verhältnis dominiert, da das Privatrauschen die natürliche Sampling-Varianz überwältigt. Diese Vereinfachung gilt für alle Experimente und ermöglicht Verlustvorhersagen mit hoher Genauigkeit. Beispielsweise könnte bei einem festen Rechenbudget von 10^18 FLOPs und einer Datenschutzstufe von ε=2 das optimale Setup ein Modell mit 500 Millionen Parametern, einer Stapelgröße von 4.000 und 1 Million Iterationen umfassen, was einen Verlust von etwa 2,5 ergibt – weitaus besser als suboptimale Zuweisungen.
Die Synergieanalyse, die aus der Datenschutzbuchhaltung ohne umfassende Schulung abgeleitet wurde, zeigt kritische Dynamiken auf. Die Darstellung der Grenzvorteile zeigt, dass eine Verdoppelung der Rechenleistung (über die Batch-Größe) das Rausch-Batch-Verhältnis halbiert und so den Nutzen erhöht, was einer Vervierfachung des Datenschutzbudgets entspricht. Dies unterstreicht den Nutzen der Rechenleistung in DP-Systemen, wo Rauschen kleine Ineffizienzen verstärkt.
Im Training von VaultGemma strebte das Team die Rechenoptimalität für 1B-Parameter an und verteilte etwa 60 % auf die Erweiterung der Batch-Größe (auf 8.000 von 1.000 Nicht-DPs), 30 % auf Iterationen (insgesamt 2 Millionen) und 10 % auf längere Sequenzen (1.024 Token). Die Poisson-Sampling-Integration über Scalable DP-SGD behielt die (ε, δ)-Grenzen bei der Verarbeitung von 1T-Tokens bei, ein Ausmaß, das zuvor für DP entmutigend war.
Benchmark-Besonderheiten verdeutlichen die Leistung. Auf HellaSwag erreicht VaultGemma eine Genauigkeit von 72,1 % und erreicht damit die 72,3 % von Gemma 3 und übertrifft die von GPT-2 mit 70,8 %. BoolQ sieht 78,5 % gegenüber 78,7 % bzw. 75,2 %. PIQA: 74,2 % vs. 74,5 % und 71,9 %; SocialIQA: 68,4 % vs. 68,6 % und 65,1 %; TriviaQA: 52,3 % vs. 52,5 % und 48,7 %; ARC-C: 45,6 % vs. 45,8 % und 42,1 %; ARC-E: 82,1 % vs. 82,3 % und 79,5 %. Diese nahezu gleichen Paritäten bei Common-Sense-, Qualitätssicherungs- und Argumentationsaufgaben bestätigen die Eignung von DP für breite Anwendungen.
Die Garantie auf Sequenzebene eignet sich für die Mischung aus gepackten Dokumenten, der Bericht weist jedoch auf Erweiterungen auf Benutzerebene durch erweiterte Buchhaltung hin. Empirische Tests umfassten 1.000 zufällige Präfixe; Keine Suffixe stimmten über den Zufall hinweg überein (p < 0,01), im Gegensatz zu Nicht-DP-Basislinien, die eine Erinnerung von 5–10 % zeigten.
Weitere Auswirkungen erstrecken sich auch auf die Unternehmens-KI. Mit DP können Modelle wie VaultGemma ermöglicht föderiertes Lernen zu sensiblen Daten ohne Zentralisierung, unter Einhaltung von Gesetzen und gleichzeitiger Beibehaltung der Aussagekraft. Der Nutzen, der der fünf Jahre alten Nicht-DP-Technologie entspricht, signalisiert eine schnelle Reifung; Prognosen deuten darauf hin, dass durch verfeinerte Gesetze innerhalb von zwei bis drei Jahren eine Parität mit den aktuellen Ausgangswerten erreicht werden kann.
Es bleiben Herausforderungen bestehen, einschließlich der Auswirkungen von Lärm auf das Lernen im Langzeitkontext und multimodale Erweiterungen. Dennoch demokratisiert die Veröffentlichung von VaultGemma die private KI und fördert Innovationen bei sicheren Chatbots, anonymisierten Analysen und ethischen Forschungstools. Da der gesellschaftliche Fußabdruck von KI wächst, werden solche Modelle, bei denen der Datenschutz an erster Stelle steht, unverzichtbar sein.








