TechBriefly DE
  • Tech
  • Business
  • Science
  • How to
  • ABOUT
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
  • Articles
No Result
View All Result
TechBriefly DE
No Result
View All Result
Home Tech
Nvidia Rubin GPUs: 200 TeraFLOPS FP64 aus Software-Emulation

Nvidia Rubin GPUs: 200 TeraFLOPS FP64 aus Software-Emulation

byEmre Çıtak
19/01/2026
in Tech
Reading Time: 4 mins read
Share on FacebookShare on Twitter

Die neuen Rubin-GPUs von Nvidia nutzen Software-Emulation, um die FP64-Leistung für HPC zu verbessern, und fordern AMDs jüngste Führung in diesem Bereich heraus, obwohl AMD seine Vorbehalte hinsichtlich der praktischen Anwendbarkeit der Methode geäußert hat. Die Gleitkommaberechnung mit doppelter Präzision (FP64) ist für moderne HPC- und wissenschaftliche Computeranwendungen unerlässlich. Nvidias neu vorgestellte Rubin-GPUs bieten 33 TeraFLOPS FP64-Spitzenleistung ohne Emulation, was einen TeraFLOP weniger ist als der vier Jahre alte H100. Mit aktivierter Softwareemulation in Nvidias CUDA-Bibliotheken kann der Chip Berichten zufolge eine FP64-Matrixleistung von bis zu 200 TeraFLOPS erreichen. Dies stellt eine 4,4-fache Steigerung der Hardwarefähigkeiten der bisherigen Blackwell-Beschleuniger dar. Dan Ernst, Senior Director für Supercomputing-Produkte bei Nvidia, erklärte: „Durch viele Studien mit Partnern und durch unsere eigenen internen Untersuchungen haben wir herausgefunden, dass die Genauigkeit, die wir durch die Emulation erhalten, mindestens so gut ist wie die, die wir mit einer Tensor-Kernhardware erzielen würden.“ Nicholas Malaya, ein AMD-Stipendiat, bemerkte: „In einigen Benchmarks ist es ziemlich gut, es ist nicht offensichtlich, dass es in echten, physikalisch-wissenschaftlichen Simulationen gut ist.“ Malaya schlug vor, dass die FP64-Emulation weitere Forschung und Experimente erfordert. FP64 bleibt aufgrund seines Dynamikbereichs, der über 18,44 Billionen (2) ausdrücken kann, der Standard für wissenschaftliches Rechnen64) eindeutige Werte. Moderne KI-Modelle wie DeepSeek R1 hingegen werden häufig im FP8 trainiert, das 256 eindeutige Werte ausdrücken kann. HPC-Simulationen basieren auf grundlegenden physikalischen Prinzipien und sind daher im Gegensatz zu KI-Workloads fehlerintolerant. Malaya erklärte: „Sobald Fehler auftreten, breiten sich diese endlichen Fehler aus und verursachen Dinge wie Explosionen.“ Das Konzept, Datentypen mit geringerer Genauigkeit zur Emulation von FP64 zu verwenden, ist nicht neu. Ernst erwähnte: „Emulation ist alt wie Dreck. Wir hatten Emulation Mitte der 50er Jahre, bevor wir Hardware für Gleitkommazahlen hatten.“ Anfang 2024 veröffentlichten Forscher der Technologieinstitute Tokio und Shibaura einen Artikel, der dieses Konzept untersuchte. Ihre Methode zeigte, dass FP64-Matrixoperationen in mehrere INT8-Operationen zerlegt werden können, wodurch auf den Tensorkernen von Nvidia eine höhere Leistung als die native Leistung erzielt wird. Dieser als Ozaki-Schema bekannte Ansatz bildet die Grundlage für die Ende letzten Jahres veröffentlichten FP64-Emulationsbibliotheken von Nvidia. Ernst stellte klar: „Es ist immer noch FP64. Es ist keine gemischte Präzision. Es ist nur aus Hardware-Perspektive anders gemacht und konstruiert.“ Moderne GPUs enthalten Tensorkerne mit geringer Präzision. Die Tensorkerne von Rubin sind beispielsweise in der Lage, 35 PetaFLOPS dichter FP4-Rechenleistung zu liefern. Im FP64 sind diese Chips mehr als 1.000x langsamer. Ernst erklärte, dass die Effizienz beim Bau und Betrieb dieser Tensorkerne mit geringer Präzision Anlass zur Erforschung ihrer Verwendung für die FP64-Berechnung gab. „Wir haben die Hardware, versuchen wir sie zu nutzen. Das ist die Geschichte des Supercomputings“, sagte er. AMD äußerte Bedenken hinsichtlich der Genauigkeit der FP64-Emulation. Malaya gab an, dass die FP64-Emulation für gut konditionierte numerische Systeme eine gute Leistung erbringt, und verwies dabei auf den High Performance Linpack (HPL)-Benchmark. „Wenn man sich jedoch Materialwissenschaften, Verbrennungscodes, lineare Bandalgebrasysteme und ähnliches anschaut, sind das viel weniger gut konditionierte Systeme, und plötzlich beginnt es zusammenzubrechen“, sagte er. Malaya stellte fest, dass die FP64-Emulation nicht vollständig IEEE-konform ist, da die Algorithmen von Nvidia Nuancen wie positive oder negative Nullen, keine Zahlenfehler oder unendliche Zahlenfehler berücksichtigen. Kleine Fehler bei Zwischenoperationen zur Emulation können zu Ungenauigkeiten führen. Eine Erhöhung der Abläufe zur Abmilderung dieses Problems kann Leistungsvorteile zunichte machen. Malaya berichtete außerdem: „Wir haben Daten, die zeigen, dass Sie in Ozaki etwa die doppelte Speicherkapazität verwenden, um diese FP64-Matrizen zu emulieren.“ AMD konzentriert sich daher auf spezielle Hardware für doppelte und einfache Präzision und nutzt beim kommenden MI430X eine Chiplet-Architektur, um die Leistung zu steigern. Ernst räumte Lücken in der Umsetzung von Nvidia ein. Er behauptete, dass positive/negative Nullen für die meisten HPC-Anwender nicht kritisch seien. Nvidia hat ergänzende Algorithmen entwickelt, um Probleme wie Nicht-Zahlen und Unendliche Zahlen zu erkennen und zu beheben. In Bezug auf den Speicherverbrauch räumte Ernst ein, dass dieser höher ausfallen könne, gab jedoch an, dass sich dieser Mehraufwand auf den Vorgang und nicht auf die Anwendung beziehe, bei der es sich typischerweise um Matrizen von einigen Gigabyte handele. Er argumentierte auch, dass IEEE-Compliance-Probleme bei Matrixmultiplikationen oft nicht auftreten. „Die meisten Anwendungsfälle, in denen IEEE-Compliance-Reihenfolgeregeln im Spiel sind, kommen nicht in Matrix- oder Matrixmultiplikationsfällen vor. Es gibt sowieso kein DGEMM, das dazu neigt, dieser Regel tatsächlich zu folgen“, teilte Ernst mit. Die FP64-Emulation ist vor allem für eine Teilmenge von HPC-Anwendungen effektiv, die auf DGEMM-Operationen (Dense General Matrix Multiply) basieren. Malaya schätzt, dass die Emulation bei 60 bis 70 Prozent der HPC-Workloads nur minimale Vorteile bietet. „Unserer Analyse zufolge basiert die überwiegende Mehrheit der echten HPC-Workloads auf Vektor-FMA und nicht auf DGEMM“, sagte er. Für vektorlastige Aufgaben wie die numerische Strömungsmechanik arbeiten Rubin-GPUs mit langsameren FP64-Vektorbeschleunigern in CUDA-Kernen. Ernst betonte, dass höhere FLOPS nicht immer gleichbedeutend mit nützlichen FLOPS sind, da die Speicherbandbreite die Leistung in der Praxis oft einschränkt. Er verwies auf den vektorlastigen High Performance Conjugate Gradient Benchmark des TOP500, bei dem CPUs aufgrund höherer Bits pro FLOPS aus ihren Speichersubsystemen oft führend sind. Mit neuen Supercomputern, die Nvidias Blackwell- und Rubin-GPUs integrieren, wird die Machbarkeit der FP64-Emulation getestet. Die inhärente Unabhängigkeit der Algorithmen von spezifischer Hardware ermöglicht potenzielle Verbesserungen im Laufe der Zeit. Malaya bestätigte, dass AMD auch die FP64-Emulation auf Chips wie dem MI355X über Software-Flags untersucht, um geeignete Anwendungen zu identifizieren. Er wies darauf hin, dass die IEEE-Konformität den Ansatz validieren würde, indem konsistente Ergebnisse zwischen Emulation und dediziertem Silizium sichergestellt würden. Malaya erklärte: „Wenn ich zu einem Partner gehen und sagen kann, führen Sie diese beiden Binärdateien aus: Diese gibt Ihnen die gleiche Antwort wie die andere und ist schneller, und ja, unter der Haube arbeiten wir an einem Plan – denken Sie, das ist ein überzeugendes Argument, das zur Hauptsendezeit bereit ist.“ Er fügte hinzu, dass bestimmte Anwendungen durch Emulation zuverlässiger sein könnten, und schlug vor: „Wir sollten als Community einen Korb mit Apps erstellen, die wir uns ansehen können.“


Hervorgehobener Bildnachweis

Source: Nvidia Rubin GPUs: 200 TeraFLOPS FP64 aus Software-Emulation

Emre Çıtak

Emre Çıtak

Emre’s love for animals made him a veterinarian, and his passion for technology made him an editor. Making new discoveries in the field of editorial and journalism, Emre enjoys conveying information to a wide audience, which has always been a dream for him.

Related Posts

So erstellen Sie Ordner und fügen Widgets auf Android hinzu

So erstellen Sie Ordner und fügen Widgets auf Android hinzu

So erlangen Sie die volle Kontrolle, indem Sie das iPhone jailbreaken und Android rooten

So erlangen Sie die volle Kontrolle, indem Sie das iPhone jailbreaken und Android rooten

Microsoft veröffentlicht Notfalllösung für Fehler beim Herunterfahren von Windows 11

Microsoft veröffentlicht Notfalllösung für Fehler beim Herunterfahren von Windows 11

Threads überholt X mit 141,5 Millionen mobilen Nutzern

Threads überholt X mit 141,5 Millionen mobilen Nutzern

So erstellen Sie Ordner und fügen Widgets auf Android hinzu
Tech

So erstellen Sie Ordner und fügen Widgets auf Android hinzu

So erlangen Sie die volle Kontrolle, indem Sie das iPhone jailbreaken und Android rooten
Tech

So erlangen Sie die volle Kontrolle, indem Sie das iPhone jailbreaken und Android rooten

Microsoft veröffentlicht Notfalllösung für Fehler beim Herunterfahren von Windows 11
Tech

Microsoft veröffentlicht Notfalllösung für Fehler beim Herunterfahren von Windows 11

Threads überholt X mit 141,5 Millionen mobilen Nutzern
Tech

Threads überholt X mit 141,5 Millionen mobilen Nutzern

Google integriert Wallet und Aufgaben in Pixel 10 Magic Cue
Tech

Google integriert Wallet und Aufgaben in Pixel 10 Magic Cue

TechBriefly DE

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • gp-home
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Science
  • How to
  • ABOUT
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.