Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie er einen Kaffee zubereitet. Früher musste man ihm jeden einzelnen Schritt wie ein Programmierer erklären: „Greife die Tasse, hebe sie, drehe den Arm um 45 Grad". Das war mühsam und unflexibel.

Heute gibt es VLA-Modelle (Vision-Language-Action), die wie ein sehr kluger, aber manchmal etwas verwirrter Assistent funktionieren. Sie schauen zu, was Menschen tun, hören dir zu und versuchen dann, die Handlungen nachzuahmen.

Das Problem ist: Diese Assistenten sind oft so sehr damit beschäftigt, die Zukunft zu sehen (z. B. wie die Tasse fällt), dass sie vergessen, was sie eigentlich tun sollen. Oder sie verlieren ihr Sprachverständnis, weil sie zu sehr auf die Bewegung konzentriert sind.

Hier kommt Mantis ins Spiel – ein neuer, genialer Ansatz, der dieses Problem löst.

1. Das Problem: Der überlastete Chef

Stell dir das Gehirn des Roboters als einen Chef vor, der zwei Aufgaben gleichzeitig erledigen muss:

Die Zukunft vorhersagen: Er muss sich genau vorstellen, wie die Szene in einer Sekunde aussieht (z. B. wie der Kaffee in die Tasse fließt).
Die Handlung steuern: Er muss die Armbewegungen berechnen.

Wenn der Chef beides gleichzeitig im selben Kopf macht, wird er überlastet. Er verliert den Überblick über die Sprache (er versteht nicht mehr, was du sagst) oder die Bewegungen werden ungenau.

2. Die Lösung: Mantis mit „Disentangled Visual Foresight" (Entkoppelte Zukunftsvorhersage)

Mantis löst das Problem, indem es die Aufgaben trennt, ähnlich wie ein gut organisiertes Büro:

Der Chef (Das Sprach- und Bildverständnis): Er bleibt entspannt. Er hört dir zu, versteht komplexe Sätze wie „Bring mir die Tasse zu dem Bild von Iron Man" und behält sein logisches Denken bei. Er muss sich nicht mehr um die Details der Bewegung kümmern.
Der Spezialist für die Zukunft (Der DVF-Head): Mantis hat einen extra Assistenten, der nur eines tut: Er schaut sich die aktuelle Szene an und malt sich aus, wie sie in ein paar Sekunden aussieht.
- Der Trick: Dieser Spezialist nutzt eine Art „Magische Lupe" (Meta-Queries). Anstatt das ganze Bild neu zu malen, sucht er nur nach den winzigen Veränderungen, die durch die Bewegung entstehen.
- Das Ergebnis: Aus diesen Veränderungen extrahiert er automatisch die „geheime Botschaft" der Bewegung (die latenten Aktionen) und gibt sie dem Chef zurück. Der Chef muss dann nur noch diese klare Botschaft in eine Handlung umwandeln.

Die Analogie: Stell dir vor, du lernst Klavier.

Der alte Weg: Du versuchst gleichzeitig, die Noten zu lesen, die Finger zu bewegen und dir vorzustellen, wie der Klang in 5 Sekunden klingt. Du wirst verwirrt.
Der Mantis-Weg: Ein Experte hört dir zu und sagt dir nur: „Deine Finger müssen jetzt genau so schnell auf die Tasten drücken, damit der Ton so klingt." Du musst nicht mehr über den Klang nachdenken, du führst nur die klare Anweisung aus.

3. Warum ist Mantis so schlau? (Das progressive Training)

Mantis lernt nicht alles auf einmal. Es ist wie ein Student, der Schritt für Schritt lernt:

Phase 1 (Schauen): Zuerst schaut es sich 220.000 Videos von Menschen an, die Dinge tun (ohne zu wissen, welche Tasten sie drücken). Es lernt einfach nur: „Wenn ich das sehe, passiert das später."
Phase 2 (Tun): Dann lernt es, wie man Roboterarme bewegt, indem es Roboterdemonstrationen sieht.
Phase 3 (Verstehen): Erst am Ende wird das Sprachtraining hinzugefügt, damit der Roboter versteht, was du sagst, ohne sein visuelles Wissen zu verlieren.

Dadurch bleibt der Roboter nicht nur ein guter Handwerker, sondern auch ein guter Gesprächspartner.

4. Der Turbo-Modus: ATE (Adaptive Temporal Ensemble)

Manchmal muss ein Roboter sehr vorsichtig sein (z. B. wenn er eine Tasse greift), manchmal kann er schnell sein (wenn er den Arm schwingt).
Früher mussten Roboter bei jedem Schritt vorsichtig sein, was sie sehr langsam machte.

Mantis hat einen intelligenten Schalter (ATE):

Wenn der Roboter eine Tasse greift (hohe Präzision nötig), schaltet er den „Turbo-Vorsicht-Modus" ein und berechnet die Bewegung mehrmals, um sicherzugehen.
Wenn er nur den Arm bewegt, schaltet er den Modus aus und arbeitet schnell.
Das Ergebnis: Der Roboter ist bis zu 50 % schneller, ohne dass er Dinge fallen lässt.

Zusammenfassung: Was bringt uns Mantis?

Bessere Ergebnisse: Auf Tests (LIBERO-Benchmark) hat Mantis eine Erfolgsrate von 96,7 % erreicht – das ist besser als fast alle anderen aktuellen Modelle.
Verständnis: Er versteht nicht nur Befehle wie „Greife die Tasse", sondern auch komplexe Sätze wie „Ich habe Durst, gib mir einen Kaffee" und weiß, dass er eine Tasse braucht.
Allgemeinwissen: Er weiß, wer Iron Man ist, und kann Matheaufgaben lösen („Setze den Bären auf die Zahl 3+5").
Geschwindigkeit: Durch den cleveren Schalter (ATE) ist er effizienter als seine Vorgänger.

Kurz gesagt: Mantis ist wie ein Roboter-Assistent, der nicht nur blind Befehle ausführt, sondern wirklich versteht, was er tut, sich die Zukunft im Kopf vorstellen kann und dabei clever genug ist, nicht unnötig Energie zu verschwenden. Er ist der erste Schritt zu Robotern, die wirklich mit uns in unserer Welt zurechtkommen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Action (VLA)-Modelle haben sich als vielversprechender Ansatz entwickelt, um robotische Aktionen aus sprachlichen Anweisungen und visuellen Beobachtungen abzuleiten. Dennoch stehen sie vor fundamentalen Herausforderungen:

Datenungleichgewicht: Die hochdimensionalen visuellen Eingaben stehen in einem Missverhältnis zu den oft sehr spärlichen Aktions-Supervisionssignalen (z. B. wenige Gelenkwinkel pro Frame). Dies führt dazu, dass die Repräsentationskapazität großer Modelle oft nicht effizient genutzt wird.
Trade-off bei visuellen Vorhersagen: Ein gängiger Ansatz zur Verbesserung ist die Vorhersage zukünftiger visueller Zustände („Visual Foresight").
- Eine direkte Vorhersage hochdimensionaler Bildzustände verteilt die Modellkapazität zu stark und verursacht enorme Trainingskosten.
- Eine Komprimierung visueller Zustände (z. B. auf Schlüsselpunkte) führt jedoch zu Informationsengpässen und geht subtile Bewegungsnuancen verloren.
Verlust von Sprachfähigkeiten: Viele bestehende VLA-Methoden vernachlässigen die Sprachsupervision während des Trainings für robotische Aufgaben. Dies führt dazu, dass das Modell seine Fähigkeit zum semantischen Verständnis und logischen Schlussfolgern verliert (Catastrophic Forgetting).

2. Methodik: Mantis und Disentangled Visual Foresight (DVF)

Das Paper stellt Mantis vor, ein neues VLA-Framework, das das Problem der visuellen Vorhersage durch ein Konzept namens Disentangled Visual Foresight (DVF) löst.

Kernarchitektur

Mantis besteht aus folgenden Komponenten:

Backbone (P): Ein vortrainiertes Vision-Language-Modell (hier Qwen2.5-VL), das für Sprachverständnis und visuelles Reasoning zuständig ist.
Connector (C): Projiziert die Ausgaben des Backbones in den Eingaberaum des Diffusion-Transformers.
DVF-Head (D): Ein Diffusion Transformer (DiT), der zukünftige Bildframes vorhersagt.
Action Head (π): Ein weiterer DiT-basierter Kopf, der die eigentlichen robotischen Aktionen generiert.
Latent-Action Queries ([LAT]): Trainierbare Abfragen, die die Interaktion zwischen visueller Dynamik und Aktionen ermöglichen.

Das Prinzip der Entkopplung (Disentanglement)

Der entscheidende Innovationsschritt ist die Entkopplung der visuellen Vorhersage vom Haupt-Backbone:

Anstatt dass der Backbone selbst die Zukunft vorhersagt (was seine Sprachfähigkeiten belasten würde), wird ein separater DiT-Head verwendet.
Der DiT erhält den aktuellen visuellen Zustand über eine Residualverbindung und nutzt Meta-Queries ([LAT]), um zukünftige Frames zu generieren.
Diese Queries lernen automatisch, die latenten Aktionen zu extrahieren, die die visuelle Trajektorie definieren (z. B. die Bewegung eines Greifers).
Diese latenten Informationen werden dann über Causal Attention an den Action-Head weitergegeben, um die expliziten Aktionen zu verbessern.
Vorteil: Der Backbone bleibt für Sprachsupervision und Reasoning „frei" und wird nicht durch die Aufgabe der Bildgenerierung überlastet.

Progressive Trainings-Rezeptur

Um eine stabile Fusion der Modalitäten (Vision, Sprache, Aktion) zu gewährleisten, wird ein dreistufiger Trainingsprozess verwendet:

Multiple Gap Vision Training: Training nur auf Videodaten (ohne Aktionslabels), um das Modell zu lehren, latente Aktionen aus visuellen Dynamiken abzuleiten.
Vision-Action Joint Training: Einführung von Roboterdemonstrationsdaten. Der Backbone bleibt eingefroren, während Action-Queries und der DVF-Head optimiert werden.
Language Supervised Mix Training: Unfrozen des Backbones und Training auf multimodalen Datensätzen (38 Datensätze) parallel zu Roboterdemonstrationen, um das Reasoning zu erhalten.

Adaptive Temporal Ensemble (ATE)

Für die Inferenz wird eine adaptive Strategie eingeführt, um die Balance zwischen Recheneffizienz und Bewegungsstabilität zu finden:

Das System analysiert, ob sich die für die Anweisung relevanten Bildbereiche („Target Patches") mit den sich bewegenden Bereichen („Dynamic Patches") überschneiden.
Bei Überschneidung (feingranulare Manipulation) wird ein Temporal Ensemble aktiviert, um Stabilität zu erhöhen.
Bei keiner Überschneidung wird das Ensemble deaktiviert, um die Inferenzgeschwindigkeit zu maximieren. Dies führt zur Variante Mantis-ATE.

3. Wichtige Beiträge

Disentangled Visual Foresight (DVF): Ein neues Paradigma, das die visuelle Vorhersage vom Sprach-Backbone entkoppelt, um latente Aktionen effizient zu lernen, ohne die Reasoning-Fähigkeiten des Modells zu beeinträchtigen.
Progressives Trainings-Design: Eine Methode zur schrittweisen Integration von Modalitäten, die Konvergenzprobleme und Modalitätskonkurrenz vermeidet.
Adaptive Temporal Ensemble (ATE): Eine dynamische Inferenzstrategie, die die Anzahl der Inferenzaufrufe um bis zu 50 % reduziert, ohne die Erfolgswahrscheinlichkeit zu mindern.

4. Ergebnisse

Simulation (LIBERO Benchmark)

Mantis erreicht auf dem LIBERO-Benchmark eine Erfolgsrate (Success Rate) von 96,7 %.
Dies übertrifft starke Baselines wie OpenVLA (76,5 %), CoT-VLA (81,1 %) und andere vision-augmentierte Modelle (z. B. UnifiedVLA mit 95,5 %).
Konvergenzgeschwindigkeit: Mantis konvergiert signifikant schneller als entkoppelte Ansätze (wie UnifiedVLA), die oft in den ersten Epochen bei 0 % Erfolg liegen.

Real-World-Experimente (Agilex-Plattform)

Mantis wurde in drei Szenarien mit In-Domain (ID) und Out-of-Domain (OOD) Anweisungen getestet.
Vergleich mit $\pi0.5$ : Mantis übertrifft das führende Open-Source-Modell $\pi0.5$ deutlich, insbesondere bei OOD-Aufgaben, die Weltwissen oder logisches Schlussfolgern erfordern (z. B. „Stelle den Becher auf Taylor Swift" statt nur „auf die Sängerin").
Reasoning: Mantis zeigt starke Fähigkeiten im Verstehen von Intent und mathematischer Logik (z. B. „3+5" statt nur „8"), was auf die Erhaltung der Sprachfähigkeiten durch die DVF-Architektur zurückzuführen ist.

Effizienz

Die Variante Mantis-ATE reduziert die Anzahl der Inferenzaufrufe um ca. 50 % (von ~154 auf ~77 im Durchschnitt), während die Erfolgsrate nahezu unverändert bleibt.

5. Bedeutung und Fazit

Mantis adressiert die zentralen Schwachstellen aktueller VLA-Modelle: den Verlust von Reasoning-Fähigkeiten und die Ineffizienz bei der Integration visueller Vorhersagen.

Technische Relevanz: Die Entkopplung der visuellen Foresight-Aufgabe ermöglicht es, die volle Kapazität des Sprachmodells für das Verständnis zu nutzen, während der Diffusion-Head als spezialisierter „Planer" für die Bewegungsplanung dient.
Praktische Anwendung: Die Ergebnisse zeigen, dass Modelle, die auf großen multimodalen Datensätzen und Roboterdemonstrationen trainiert werden, robustere und generalisierbare Fähigkeiten besitzen, insbesondere bei unvorhergesehenen Anweisungen.
Open Source: Der Code und die Gewichte wurden veröffentlicht, was die Community bei der Entwicklung robusterer robotischer Steuerungssysteme unterstützen soll.

Zusammenfassend demonstriert Mantis, dass eine sorgfältige Architektur, die visuelle Vorhersage und Sprachverständnis trennt, aber durch latente Aktionen verbindet, zu überlegenen Leistungen in Simulation und der realen Welt führt.