Nvidia hat Benchmark-Daten veröffentlicht, die zeigen, dass seine GB300 NVL72-Systeme mit Blackwell Ultra-GPUs einen bis zu 50-mal höheren Durchsatz pro Megawatt und 35-mal niedrigere Kosten pro Token im Vergleich zur vorherigen Hopper-Plattform für KI-Workloads mit geringer Latenz liefern. Die Leistungssteigerungen zielen auf den wachsenden Markt für Agenten-KI-Anwendungen und Codierungsassistenten ab.
Blackwell Ultra Tensor Cores bieten 1,5-mal mehr Rechenleistung als Standard-GPUs von Blackwell. Die Verarbeitung der Aufmerksamkeitsschicht wurde durch eine beschleunigte Softmax-Ausführung verdoppelt, wodurch Engpässe in den Aufmerksamkeitsschichten des Transformators behoben wurden, die von Argumentationsmodellen mit großen Kontextfenstern verwendet werden. Auch die TensorRT-LLM-Inferenzbibliothek von Nvidia hat sich verbessert, wobei SemiAnalysis-Benchmarks zeigen, dass sich der Durchsatz pro GPU seit Oktober 2025 auf einigen Interaktivitätsniveaus verdoppelt hat. Die Kombination dieser Hardware- und Softwarefortschritte führte zu einer 10-fachen Steigerung der Token pro Sekunde und Benutzer und einer 5-fachen Verbesserung der Token pro Sekunde und Megawatt im Vergleich zu Hopper, was zu der gemeldeten 50-fachen Steigerung der KI-Fabrikleistung führte.
„Da Inferenz in den Mittelpunkt der KI-Produktion rückt, werden Langzeitkontextleistung und Token-Effizienz von entscheidender Bedeutung“, sagte Chen Goldberg, Senior Vice President of Engineering bei CoreWeave. „Grace Blackwell NVL72 geht diese Herausforderung direkt an.“
Große Cloud-Anbieter setzen die GB300 NVL72-Infrastruktur ein. CoreWeave gab im Jahr 2025 bekannt, dass es der erste KI-Cloud-Anbieter war, der die Systeme in der Produktion einsetzte und sie in seinen Kubernetes-basierten Cloud-Stack integrierte. Microsoft hat den sogenannten weltweit ersten groß angelegten Supercomputing-Cluster GB300 NVL72 bereitgestellt und in von Signal65 validierten Tests über 1,1 Millionen Token pro Sekunde auf einem einzigen Rack erreicht. Die OCI-Plattform von Oracle setzt GB300-NVL72-Systeme ein und plant, ihre Supercluster auf mehr als 100.000 Blackwell-GPUs zu skalieren, um den Bedarf an Inferenz-Workloads zu decken.
Kostensenkungen verändern die Wirtschaftlichkeit des KI-Einsatzes. Führende Inferenzanbieter, darunter Baseten, DeepInfra, Fireworks AI und Together AI, berichteten von bis zu zehnfachen Kostensenkungen bei Verwendung der Standard-Blackwell-Plattform. Die Blackwell Ultra-Plattform erweitert diese Vorteile für Workloads mit geringer Latenz, wobei die 35-mal niedrigeren Kosten pro Million Token eine wirtschaftlichere Bereitstellung von KI-Agenten und Codierungsassistenten in großem Maßstab ermöglichen.
Nvidia gab eine Vorschau auf seine Rubin-Plattform der nächsten Generation und behauptete, sie werde eine weitere zehnfache Leistungssteigerung gegenüber Blackwell bieten.








