Mit Nemotron 3 Nano Omni können Agenten in Echtzeit „sehen und hören“.

Nvidia stellte Nemotron 3 Nano Omni vor, ein offenes multimodales KI-Modell, das Bild-, Audio- und Sprachfunktionen in einer einheitlichen Architektur integriert.

Das Modell zielt darauf ab, Ineffizienzen in aktuellen Unternehmens-KI-Systemen zu beheben, die häufig auf fragmentierten Pipelines basieren. Es verarbeitet eine Vielzahl von Eingaben – darunter Text, Bilder, Audio, Video, Dokumente, Diagramme und grafische Oberflächen – und generiert gleichzeitig Textausgaben.

Nemotron 3 Nano Omni basiert auf einer hybriden Expertenarchitektur mit 30 Milliarden Parametern und aktiviert etwa 3 Milliarden Parameter pro Inferenz. Nvidia behauptet, dass es die Datenkapazität größerer Modelle bietet und gleichzeitig die Rechenkosten erheblich senkt.

Nvidia gab an, dass der Nemotron 3 Nano Omni einen bis zu 9-mal höheren Durchsatz erreicht als vergleichbare offene Omni-Modelle. Für Video-Argumentation-Aufgaben bietet es einen etwa dreimal höheren Durchsatz bei 2,75-mal geringeren Rechenanforderungen, unterstützt durch ein 256-KByte-Token-Kontextfenster. Berichten zufolge führt das Modell sechs Benchmarks für komplexe Dokumentenintelligenz sowie Video- und Audioverständnis an.

Bemerkenswerte Anwender des Modells sind Foxconn, Palantir und H Company. „Der Einsatz des Nemotron 3 Nano Omni ermöglicht unseren Agenten die schnelle Analyse von Full-HD-Bildschirmaufzeichnungen, eine Funktion, die bisher nicht möglich war“, sagte Gautier Cloix, CEO von H Company.

Dell, Oracle und Infosys prüfen derzeit das Modell auf eine mögliche Einführung. Nemotron 3 Nano Omni ist auf Plattformen wie Hugging Face, OpenRouter, Amazon SageMaker JumpStart, Vultr und über 25 Partnerplattformen zugänglich. Es ist mit offenen Gewichten, Datensätzen und Trainingsrezepten für den Einsatz in verschiedenen Umgebungen ausgestattet.

Dieses Modell ist Teil der breiteren Nemotron 3-Familie von Nvidia, zu der Super- und Ultra-Modelle gehören, die für anspruchsvollere Denkaufgaben konzipiert sind. Die Nemotron 3-Serie wurde im vergangenen Jahr über 50 Millionen Mal heruntergeladen.

Quelle des hervorgehobenen Bildes

Mit Nemotron 3 Nano Omni können Agenten in Echtzeit „sehen und hören“.

Related Stories

Apple bringt in Beta 3 weitere persönliche Siri-Sprachsteuerungen mit

Anthropische Studie zeigt, dass Claude-Modelle einen internen Arbeitsbereich bilden, der dem Bewusstsein ähnelt

Apple aktiviert Siri AI auf der Apple Watch in watchOS 27 Beta 3

Midjourney drängt Disney und andere, den internen KI-Einsatz in einer Klage offenzulegen