VLA-Modell
Vision-Language-Action — KI-Architektur, die Bild, Sprache und Bewegung verbindet.
Ein Vision-Language-Action-Modell (VLA) verbindet drei Modalitäten in einem KI-System: visuelle Wahrnehmung, Sprachverständnis und physische Bewegungssteuerung. Der Roboter sieht eine Szene, interpretiert eine Sprachanweisung und führt die entsprechende Aktion aus — ohne separate Programmierung für jede Aufgabe. Figure AI (Helix), Google DeepMind (RT-2) und NVIDIA (GR00T) zählen 2026 zu den prominentesten VLA-Architekturen im Humanoid-Bereich.