Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om de huishoudelijke klusjes te doen. Je wilt dat hij niet alleen kijkt wat er gebeurt, maar ook begrijpt wat je zegt en dan precies weet welke bewegingen hij moet maken. Dat is de droom van de Mantis-robot, beschreven in dit nieuwe onderzoek.

Hier is een uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Verkeerde" Leraar

Tot nu toe hadden robot-leren-modellen een groot probleem. Ze moesten twee dingen tegelijk doen:

Kijken en begrijpen: "Wat zie ik? Dat is een kopje en een theedoos."
Bewegen: "Hoe beweeg ik mijn arm om het kopje te pakken?"

Vaak probeerden deze robots om precies te voorspellen hoe de toekomst eruitziet (bijvoorbeeld: "Over 2 seconden is het kopje hier"). Dit is als proberen een heel gedetailleerd schilderij te maken van de toekomst. Het kost enorm veel tijd en energie, en het robotbrein raakt in de war. Het vergeet dan vaak wat je eigenlijk tegen hem hebt gezegd ("Haal het kopje") omdat het zich te veel concentreert op het schilderen van de toekomst.

2. De Oplossing: Mantis en de "Twee-Geest"

De onderzoekers hebben Mantis bedacht. Dit is een slimme robot die een nieuwe truc heeft: Gescheiden Visie.

Stel je Mantis voor als een chef-kok met twee handen:

Hand 1 (De Verstandige Chef): Deze hand houdt zich bezig met het begrijpen van de taal en de wereld. "Ah, de klant is dorstig, ik moet een glas water halen." Deze hand wordt niet afgeleid door het voorspellen van elke pixel van de toekomst.
Hand 2 (De Snelheids-Runner): Deze hand is gespecialiseerd in het voorspellen van bewegingen. In plaats van een heel schilderij te maken, kijkt deze hand alleen naar de essentiële veranderingen.

De Magische Truc (De "Latente Vragen"):
Mantis gebruikt een slimme methode. Hij vraagt zichzelf niet: "Hoe ziet de toekomst eruit?" (wat veel te veel informatie is). In plaats daarvan vraagt hij: "Wat is het verschil tussen nu en straks?"

Vergelijking: Stel je voor dat je een video van een danser bekijkt. In plaats van elke foto van de danser te tekenen, teken je alleen de pijltjes die aangeven waar de voeten naartoe gaan. Die pijltjes zijn de "verborgen acties". Mantis leert die pijltjes te zien, en die pijltjes vertellen de robot precies wat hij moet doen.

3. Hoe leert Mantis? (Het Drie-Stappenplan)

Mantis wordt niet in één keer alles geleerd. Dat zou hem overbelasten. Het is meer als het leren van een sport:

Stap 1: Kijken en Voorspellen (De Sportkijker). Eerst kijkt Mantis naar duizenden video's van mensen die dingen doen (zoals borden afwassen of bloemen snijden). Hij leert alleen om te voorspellen wat er volgende gebeurt, zonder dat hij zelf iets moet doen. Hij bouwt zo een gevoel voor hoe de wereld beweegt.
Stap 2: Bewegen (De Sporter). Nu krijgt hij echte robot-demonstraties. Hij koppelt wat hij zag (de beweging) aan de daadwerkelijke robot-bewegingen.
Stap 3: Praten (De Trainer). Tot slot krijgt hij taallessen. Hij leert dat "Ik heb dorst" betekent dat hij een glas moet halen. Omdat hij de eerste twee stappen al goed had, vergeet hij zijn taalvaardigheid niet. Hij blijft slim en kan redeneren.

4. Waarom is dit zo goed?

Sneller leren: Omdat Mantis niet hoeft te "schilderen" van de hele toekomst, leert hij veel sneller dan andere robots. In tests (de LIBERO-benchmark) haalde hij een score van 96,7%, wat beter is dan bijna alle andere robots.
Beter begrijpen: Als je tegen een oude robot zegt: "Zet het kopje op de plaat van Taylor Swift", zou hij misschien in de war raken als hij niet weet wie Taylor Swift is. Mantis weet wie dat is, omdat hij de taal-supervisie heeft behouden. Hij kan zelfs rekenen: "Zet het kopje op het getal dat 3 plus 5 is."
Slimme energiebesparing (ATE): Soms hoeft de robot niet elke milliseconde te rekenen. Mantis heeft een slimme schakelaar (ATE). Als de robot iets simpels doet (zoals leeg lopen), doet hij minder berekeningen. Als hij iets moeilijks doet (zoals een glas water vasthouden zonder te morsen), schakelt hij over op "super-precies". Dit bespaart tot 50% tijd zonder dat de robot minder goed werkt.

Samenvattend

Mantis is als een robot die een splitsing heeft gemaakt tussen "dromen over de toekomst" en "nu doen".

De ene kant droomt alleen over de beweging (de pijltjes), niet over het hele plaatje.
De andere kant blijft een slimme, taalvaardige assistent die precies begrijpt wat je bedoelt.

Dit maakt de robot niet alleen sneller en slimmer, maar ook veel beter in het uitvoeren van lastige taken in de echte wereld, zoals het helpen van mensen die dorst hebben of het opruimen van een rommelige kamer.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande Vision-Language-Action (VLA) modellen, die visuele signalen en taal gebruiken om robotacties te genereren, kampen met fundamentele uitdagingen:

Onbalans in supervisie: De actie-signalen (bijv. robotarm-bewegingen) zijn vaak zeer schaars in vergelijking met de hoge-dimensionaliteit van de visuele invoer. Dit leidt tot een onderbenutting van het modelcapaciteit.
Het dilemma van visuele voorspelling: Om het probleem van schaarse acties op te lossen, proberen sommige modellen toekomstige visuele staten (frames) te voorspellen. Echter, het direct voorspellen van hoge-dimensionaliteit beelden verdeelt de modelcapaciteit en veroorzaakt hoge trainingskosten. Het comprimeren van visuele staten leidt daarentegen tot informatiebottlenecks waarbij fijne bewegingsdetails verloren gaan.
Verlies van redeneervermogen: Veel bestaande VLA-modellen verwaarlozen taalsupervisie tijdens het trainen voor robotica. Hierdoor "vergeten" ze vaak hun oorspronkelijke vermogen tot semantisch begrip en redeneren, wat essentieel is voor het volgen van complexe instructies en generalisatie naar nieuwe situaties.

Methodologie: Mantis en Disentangled Visual Foresight (DVF)

Het paper introduceert Mantis, een nieuw VLA-architectuur dat het probleem aanpakt via een innovatief concept genaamd Disentangled Visual Foresight (DVF).

1. Architectuur en DVF:
In tegenstelling tot eerdere benaderingen die visuele voorspelling en actie-voorspelling strak aan elkaar koppelen, ontkoppelt Mantis deze taken:

Backbone: Gebruikt een krachtig Vision-Language Model (Qwen2.5-VL) voor visueel en taalkundig begrip.
DVF Head (Diffusion Transformer): Een apart hoofd (gebaseerd op Sana/DiT) dat toekomstige visuele frames voorspelt. Cruciaal is dat dit hoofd losstaat van de backbone.
Latent-Action Queries: De DVF gebruikt "meta-queries" die, via een residuele verbinding met de huidige visuele staat, automatisch de inter-frame dynamiek (de veranderingen tussen frames) leren. Deze dynamiek vertegenwoordigt latente acties.
Actie-voorspelling: Een aparte actie-head gebruikt deze geleerde latent-acties (in combinatie met de huidige context) om de daadwerkelijke robotacties te genereren.
Voordeel: De backbone hoeft geen ruwe pixeldata te genereren, waardoor de capaciteit vrijkomt voor taalbegrip. De latent-acties fungeren als een compacte, informatieve leidraad voor de actie-voorspelling zonder de bottleneck van pixelcompressie.

2. Progressieve Trainingsrecept:
Om stabiliteit te garanderen en cross-modale concurrentie te minimaliseren, wordt Mantis in drie fasen getraind:

Fase 1 (Meerdere Gap Visuele Training): Trainen op menselijke manipulatievideo's (zonder actielabels) om de DVF-head en latent-queries te leren toekomstige frames te voorspellen. De backbone blijft bevroren.
Fase 2 (Visie-Actie Gezamenlijke Training): Introductie van robotdemonstraties (DROID dataset). De actie-head wordt toegevoegd en getraind om latent-acties te vertalen naar echte acties.
Fase 3 (Taal-gesuperviseerde Mix Training): Gezamenlijk trainen op multimodale datasets (38 datasets) en robotdata. De backbone wordt ontvroren en getraind met taalsupervisie om het redeneervermogen te behouden.

3. Adaptive Temporal Ensemble (ATE):
Tijdens inferentie gebruikt Mantis een strategie om bewegingsstabiliteit te waarborgen zonder onnodige rekencapaciteit te verspillen.

Het systeem analyseert of er overlap is tussen "doel-patches" (objecten relevant voor de instructie) en "dynamische patches" (gebieden met visuele verandering).
Als er overlap is (bijv. grijpen van een object), wordt Temporal Ensemble geactiveerd voor stabiliteit.
Als er geen overlap is, wordt het uitgeschakeld voor efficiëntie. Dit reduceert het aantal inferenties met 50% zonder prestatieverlies.

Kernbijdragen

Disentangled Visual Foresight (DVF): Een nieuw kader dat visuele voorspelling ontkoppelt van de backbone, waardoor actie-voorspelling wordt versterkt door latent-acties zonder het semantisch begrip van het model te schaden.
Progressieve Trainingsstrategie: Een methode om visie, taal en actie stapsgewijs te integreren, wat leidt tot stabielere convergentie en behoud van redeneervermogen.
Adaptive Temporal Ensemble (ATE): Een efficiëntie-verbetering die dynamisch de stabiliteit van de beweging aanpast aan de complexiteit van de taak.

Resultaten

Mantis werd geëvalueerd op zowel simulatie- als real-world benchmarks:

LIBERO Benchmark (Simulatie):
- Mantis bereikte een succesrate (SR) van 96,7%, wat hoger is dan state-of-the-art baselines zoals OpenVLA (76,5%), CoT-VLA (81,1%) en zelfs sterke concurrenten zoals UnifiedVLA (95,5%).
- Het model toont een snellere convergentie dan eerdere visuele voorspelling-methoden (zoals UnifiedVLA), wat de effectiviteit van de ontkoppeling bevestigt.
Real-World Experimenten (Agilex Platform):
- Mantis werd vergeleken met $\pi0.5$ (een toonaangevend open-source VLA-model).
- Instructievolging: Mantis presteerde aanzienlijk beter, vooral bij Out-of-Distribution (OOD) instructies die wereldkennis (bijv. "Plaats het op Taylor Swift") of basisredenering (bijv. "Plaats het op het nummer (3+5)") vereisen.
- $\pi0.5$ faalde bijna volledig bij OOD-instructies, wat aantoont dat Mantis door de taalsupervisie zijn redeneervermogen heeft behouden.
Efficiëntie:
- De Mantis-ATE variant reduceerde het aantal inferentie-aanroepen met 50% terwijl de taalsuccesrate gelijk bleef.

Beteeknis

Dit paper markeert een belangrijke stap in de ontwikkeling van robuuste robotbesturingssystemen. Door het probleem van "visuele voorspelling" en "actie-voorspelling" te ontkoppelen, slaagt Mantis erin om het beste van twee werelden te combineren:

Hoge prestaties in fysieke taken door gebruik te maken van visuele voorspelling als een rijke, maar compacte, supervisiebron.
Sterk taalbegrip en generalisatie door de backbone niet te belasten met pixelgeneratie en expliciet taalsupervisie te behouden.

De resultaten tonen aan dat robots niet alleen instructies kunnen uitvoeren, maar ook begrijpen en redeneren over de wereld, zelfs in onbekende situaties. De openbaarmaking van de code en gewichten draagt bij aan de open-source gemeenschap voor verdere ontwikkeling van generieke robotpolicies.

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

1. Het Probleem: De "Verkeerde" Leraar

2. De Oplossing: Mantis en de "Twee-Geest"

3. Hoe leert Mantis? (Het Drie-Stappenplan)

4. Waarom is dit zo goed?

Samenvattend

Probleemstelling

Methodologie: Mantis en Disentangled Visual Foresight (DVF)

Kernbijdragen

Resultaten

Beteeknis

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems