Embodied AI
KI mit physischem Körper, die durch Interaktion mit der realen Welt lernt — abgegrenzt von rein digitalen Sprach- oder Bildmodellen.
Embodied AI bezeichnet Künstliche Intelligenz, die einen physischen Körper besitzt und durch Interaktion mit der realen Welt — Bewegung, Berührung, Manipulation — lernt, statt ausschließlich aus statischen Datensätzen. Der Begriff grenzt sich bewusst von rein digitalen Systemen wie Sprach- oder Bildmodellen ab: Die These dahinter, prominent vertreten von Forschungsgruppen rund um Rodney Brooks und in jüngerer Zeit von NVIDIA-Chef Jensen Huang, lautet, dass robuste Allgemeinintelligenz sensorische Erfahrung und physische Konsequenzen voraussetzt.
Technologisch konvergiert Embodied AI seit 2024 um Vision-Language-Action-Modelle (VLA): Foundation Models, die Bilder, Sprache und Steuerbefehle in einer gemeinsamen Repräsentation verarbeiten. NVIDIA stellte im März 2025 mit Isaac GR00T N1 das erste offene Foundation Model für humanoide Roboter vor — eine duale Architektur mit „System 1" für schnelle Reaktionen und „System 2" für überlegende Planung, trainiert auf einer Mischung aus realen Roboter-Trajektorien, Menschenvideos und synthetischen Daten. NVIDIA arbeitet hier explizit mit 1X Technologies, Figure AI, Boston Dynamics, Agility Robotics, Apptronik, Unitree Robotics und Xpeng zusammen. NEURA Robotics integriert GR00T im 4NE1 und ergänzt es um die eigene Neuraverse-Plattform für flottenübergreifendes Lernen.
Für Konsument:innen ist die Unterscheidung zwischen Embodied AI und klassischer Robotik-Software vor allem deshalb relevant, weil sich daraus die Lernkurve eines Roboters über seine Lebensdauer hinweg ergibt. Klassisch programmierte Maschinen können nur, was im Code steht; Embodied-AI-getriebene Plattformen versprechen Fähigkeitserweiterung über Software-Updates und Flottendaten. Ob dieses Versprechen in der Praxis eingelöst wird, ist regulatorisch und technisch noch offen: Die EU-KI-Verordnung (AI Act) klassifiziert humanoide Roboter, die in Arbeitskontexten eingesetzt werden, regelmäßig als Hochrisiko-Systeme — die Datennutzung für Online-Lernen muss dokumentiert, auditierbar und im Sinne der DSGVO eingewilligt sein (vorläufige Einschätzung, abhängig vom konkreten Einsatzszenario und der finalen Auslegung der jeweiligen Behörden).
Methodisch unterscheidet sich Embodied AI von klassischem Reinforcement Learning vor allem durch die Datenquellen. Statt Millionen simulierter Episoden in einer abstrakten Umgebung kombinieren aktuelle Stacks reale Roboter-Trajektorien, Teleoperationsdaten von Menschen, Internet-Videos menschlicher Tätigkeiten und Synthetik-Daten aus physikalisch korrekten Simulatoren wie NVIDIA Isaac Sim oder dem 2025 von NVIDIA mit Google DeepMind und Disney Research entwickelten Newton-Physikengine. Diese „Mix-of-Modalities"-Strategie soll Generalisierung über unbekannte Objekte und Umgebungen ermöglichen — und ist gleichzeitig die Achillesferse: Wenn die Trainingsdaten eine Personengruppe, Sprache oder Umgebung unterrepräsentieren, droht systematisches Versagen im Realeinsatz. Aus Konsumentensicht ist deshalb relevant, ob Hersteller eine Modell-Datenkarte oder vergleichbare Dokumentation zu Trainingsdaten und Limitationen bereitstellen.
Quellen
NVIDIA Newsroom: „NVIDIA Announces Isaac GR00T N1 — the World's First Open Humanoid Robot Foundation Model" (März 2025) — nvidianews.nvidia.com
arXiv 2503.14734: „GR00T N1: An Open Foundation Model for Generalist Humanoid Robots"
EU-Verordnung 2024/1689 (AI Act), Klassifizierung Hochrisiko-Systeme; NEURA Robotics Neuraverse-Plattformbeschreibung — neura-robotics.com



