NVIDIA kündigte auf dem AI Infra Summit die „Rubin CPX“-GPU an, einen spezialisierten Beschleuniger aus der kommenden „Rubin“-Familie, der für Massive-Context-KI-Modelle entwickelt wurde. Der Chip wird voraussichtlich Ende 2026 30 PetaFLOPS NVFP4-Rechenleistung auf einem monolithischen Chip mit 128 GB GDDR7-Speicher liefern. Diese monolithische Konfiguration ist eine Abkehr von den Dual-GPU-Paketen der aktuellen Blackwell- und Blackwell Ultra-Architekturen von NVIDIA und dem, was der Rest der Rubin-Familie folgen wird. Der Rubin CPX behebt Rechenengpässe in Szenarien mit erweitertem Kontext und verarbeitet Millionen von Token gleichzeitig für Anwendungen wie umfassende Software-Codebasisanalysen und stundenlange Videoverarbeitung, die bis zu einer Million Token erfordern können.
Der Prozessor integriert vier NVENC- und vier NVDEC-Video-Encoder auf dem Chip und ermöglicht so optimierte Multimedia-Workflows. NVIDIA gibt an, dass der Rubin CPX die dreifache Bildverarbeitungsgeschwindigkeit seiner aktuellen GB300 Blackwell Ultra-Beschleunigersysteme bietet. Die Architektur nutzt einen kostenoptimierten Single-Die-Ansatz, um die Fertigungskomplexität potenziell zu reduzieren und gleichzeitig die Rechendichte beizubehalten. Obwohl die Spezifikationen zur Speicherbandbreite nicht bekannt gegeben werden, könnte eine 512-Bit-Schnittstelle mit 30-Gbit/s-GDDR7-Speicherchips einen Durchsatz von etwa 1,8 TB/s erzielen.
NVIDIA plant, Rubin CPX-Prozessoren in die Vera Rubin NVL144 CPX-Plattform zu integrieren und dabei traditionelle Rubin-GPUs mit den speziellen CPX-Varianten zu kombinieren. Dieses Hybrid-Setup zielt auf 8 ExaFLOPS Gesamtrechenleistung und 1,7 PB/s Speicherbandbreite über eine vollständige Rack-Bereitstellung ab. Das „Kyber“-Rack wird ConnectX-9-Netzwerkadapter mit 1600G-Netzwerk, Spectrum6 mit 102,4T-Switching und im Lieferumfang enthaltener Optik enthalten.
NVIDIA vermarktet den Rubin CPX als Einzelstück in der Rubin-Familie, um die Komplexität von KI-Systemen mit Testzeitskalierung zu bewältigen. Während sich Modelle zu hochentwickelten Argumentationsagenten entwickeln, teilt sich die Inferenz zwischen rechenintensiver Kontextverarbeitung und speicherbandbreitenabhängiger Token-Generierung auf. Das CPX-Design ist für diese doppelten Anforderungen optimiert und verarbeitet Kontextvorausfüllungsvorgänge für Unternehmens-Chatbots mit 256.000 Token oder Codeanalysen mit mehr als 100.000 Zeilen. Diese Spezialisierung ist von entscheidender Bedeutung für KI-Systeme, die dauerhaften Speicher über längere Interaktionen hinweg benötigen, was NVIDIA nahtlos mit dieser Hardware ermöglichen möchte.
Der schnelle Entwicklungszyklus von NVIDIA hat die finanzielle Leistung des Unternehmens gesteigert. Im letzten Quartal meldete das Unternehmen einen Rechenzentrumsumsatz von 41,1 Milliarden US-Dollar.







