NVIDIA präsentierte am Montag auf der CVPR 2026-Konferenz in Seattle eine neue Reihe von KI-Modellen, die drei für die physische KI entscheidende Bereiche adressieren: robotische Greifvorgänge, autonomes Fahren und das Training virtueller Agenten. Die Modelle sollen skalierbar sein – von Laborexperimenten hin zur realen Anwendung in Fabriken, auf Straßen und in Simulationsumgebungen.
Drei Domänen der physischen KI
Die Modelle decken Aufgaben ab, die für Roboter und selbstfahrende Systeme lange eine Herausforderung darstellten. Ein Modell konzentriert sich auf Greifvorgänge – die Fähigkeit eines Roboterarms, unbekannte Objekte aufzunehmen, ohne sie zu zerdrücken oder fallen zu lassen. Ein anderes wurde für das autonome Fahren entwickelt und übernimmt Wahrnehmung und Entscheidungsfindung im Straßenverkehr. Das dritte zielt auf virtuelle Agenten ab, die Unternehmen zunächst in simulierten Welten trainieren, bevor sie sie in echte Umgebungen entlassen.
NVIDIA veröffentlichte keine detaillierten Leistungsmetriken, doch die Ankündigung deutet darauf hin, dass das Unternehmen diese drei Bereiche als Hauptengpässe der physischen KI ansieht. Das Unternehmen investiert bereits massiv in Robotik-Chips, Simulationsplattformen wie Isaac Sim und In-Car-Computersysteme. Mit diesen Modellen verknüpft NVIDIA diese Hardware-Anstrengungen mit einer Software-Schicht.
Warum Skalierbarkeit entscheidend ist
Einen Roboter zu trainieren, eine Wasserflasche aufzuheben, ist eine Sache. Ihm beizubringen, jede Flasche – unabhängig von Form, Beleuchtung oder Winkel – mit der Geschwindigkeit aufzuheben, die ein Lager benötigt, ist eine andere. Dasselbe gilt für ein selbstfahrendes Auto, das eine verschneite Nacht in Detroit oder eine chaotische Kreuzung in Mumbai meistern muss. NVIDIA betont, dass seine neuen Modelle diese Variationen skalieren können, ohne von Grund auf neu trainiert werden zu müssen.
Das Modell für virtuelle Agenten richtet sich an Unternehmen, die digitale Zwillinge erstellen oder KI-Assistenten trainieren. Anstatt jede Interaktion vorzuschreiben, ermöglicht das Modell, dass der Agent durch Handeln in einer simulierten Umgebung lernt. Dieser Ansatz hat sich in Logistik und Gaming bewährt, doch NVIDIA möchte ihn nun in die Fertigung und Gesundheitsbranche vorantreiben.
Eine Konferenz mit Fokus auf visuelle Erkennung
Die CVPR – Conference on Computer Vision and Pattern Recognition – ist die größte jährliche Fachtagung für Forschende im Bereich Computer Vision. Sie bietet einen natürlichen Rahmen für NVIDIA, um Arbeiten zu Wahrnehmung und Steuerung vorzustellen. Das Unternehmen ist regelmäßig auf der Konferenz vertreten und nutzt sie oft, um Hardware oder Open-Source-Tools vorzustellen. In diesem Jahr lag der Schwerpunkt auf Modellen, die die Lücke zwischen Sehen und Handeln schließen.
Die Ankündigung enthielt keinen spezifischen Veröffentlichungstermin für die Modelle oder Erwähnung von Pilotkunden. NVIDIA stellt seine KI-Modelle typischerweise über seine Entwicklerplattformen oder als vortrainierte Modelle für Forschende zur Verfügung. Diese Details könnten in den kommenden Wochen bekannt werden, während die Konferenzsitzungen fortlaufen.
Für den Moment ist die Schlussfolgerung klar: NVIDIA setzt darauf, dass die nächste Welle der KI nicht auf Chatbots oder Bildgeneratoren beschränkt sein wird. Physische KI – Maschinen, die mit der unordentlichen, unberechenbaren physischen Welt interagieren – ist das Ziel, und das Unternehmen baut neue Modelle auf die bereits verkaufte Hardware auf.



