ReMoT: Reinforcement Learning with Motion Contrast Triplets

Dit paper introduceert ReMoT, een unificerend trainingsparadigma dat een automatisch gegenereerd dataset van 16.5K bewegingscontrast-triplets en Group Relative Policy Optimization combineert om de prestaties van Vision-Language Modellen op ruimtelijk-temporele redeneertaken met 25,1% te verbeteren.

Cong Wan, Zeyu Guo, Jiangyang Li, SongLin Dong, Yifan Bai, Lin Peng, Zhiheng Ma, Yihong Gong

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

ReMoT: Het Leren van een Robot om de Wereld te "Voelen" in Beweging

Stel je voor dat je een zeer slimme robot hebt die alles kan zien en begrijpen. Hij kan een foto van een kat bekijken en zeggen: "Dat is een kat." Maar als je hem twee foto's van dezelfde kat toont, waarbij de kat in de tweede foto net een stapje naar links is gelopen, dan raakt deze robot vaak in de war. Hij denkt misschien dat de camera is bewogen, of dat de kat verdwenen is. Hij mist het gevoel voor tijd en ruimte.

Dit is precies het probleem dat de onderzoekers van ReMoT hebben opgelost. Hier is hoe ze dat deden, vertaald naar alledaagse taal:

1. Het Probleem: De "Stilstand" in het Brein

De huidige slimme modellen (zoals GPT-4 of Qwen) zijn geweldig in het herkennen van beelden, maar ze zijn slecht in het begrijpen van beweging.

  • Voorbeeld: Als je een video bekijkt waarin een robotarm een broodpand oppakt, denkt de oude robot soms dat de arm omlaag gaat, terwijl hij eigenlijk omhoog gaat. Of hij denkt dat de camera draait, terwijl het object beweegt.
  • De oorzaak: Deze modellen zijn getraind op miljoenen statische foto's. Ze hebben nooit echt geleerd hoe de wereld verandert van het ene moment naar het andere. Het is alsof je iemand leert autorijden door alleen maar foto's van auto's te tonen, zonder ooit de weg te zien.

2. De Oplossing: ReMoT (De "Spiegel-Training")

De onderzoekers hebben een nieuwe manier van trainen bedacht, genaamd ReMoT. Ze gebruiken twee slimme trucs:

Truc A: De "Spiegel-Boek" (ReMoT-16K)

In plaats van dat mensen urenlang foto's moeten bekijken en uitleggen wat er gebeurt (wat duur en traag is), hebben de onderzoekers een automatische machine gebouwd.

  • Hoe het werkt: Stel je voor dat je een video hebt met een robot. De machine kijkt niet alleen naar de beelden, maar leest ook de "geheime notities" van de robot (zoals: "Ik heb mijn arm 20 graden naar links bewogen").
  • De Spiegelspel: De machine maakt nu een oefening:
    1. De echte foto: De robot beweegt naar links.
    2. De valstrik: De machine maakt een nep-foto die er bijna hetzelfde uitziet, maar waarbij de robot naar rechts beweegt.
    3. De vraag: "Welke foto toont de echte beweging?"
  • Het resultaat: Ze hebben zo 16.000 van deze "spiegel-oefeningen" gemaakt. De robot moet nu leren het kleine verschil tussen "links" en "rechts" te zien, net zoals je leert het verschil tussen een spiegelbeeld en de echte wereld te zien.

Truc B: De "Zelfreflectie" (GRPO)

Vroeger leerden ze robots door ze gewoon de juiste antwoorden te geven (Supervised Fine-Tuning). Maar dat werkt niet goed voor complexe redeneringen.

  • De nieuwe methode: Ze gebruiken een techniek genaamd GRPO. Dit is alsof je de robot een quiz geeft waarbij hij vier verschillende antwoorden bedenkt.
  • De jury: De robot kijkt dan naar zijn eigen vier antwoorden en zegt: "O, antwoord 3 is logischer dan antwoord 1, want in antwoord 1 vergeet ik dat de camera draait."
  • De beloning: Als hij het juiste antwoord kiest en zijn redenering logisch is, krijgt hij een "sterretje". Als hij in de war raakt of tegenstrijdigheden heeft (bijvoorbeeld: "De arm gaat omhoog" en later "De arm gaat omlaag" zonder reden), krijgt hij een waarschuwing.
  • Het effect: De robot leert niet alleen het antwoord, maar leert ook niet in de war te raken. Hij wordt een betere "denker" die zijn eigen gedachten controleert.

3. Het Resultaat: Een Robot die de Dans Meedoet

Na deze training is de robot (ReMoT) een heel ander beest:

  • Snelheid: Hij is veel sneller in het begrijpen van beweging.
  • Nauwkeurigheid: Hij maakt 25% minder fouten dan de beste modellen van nu.
  • Alleskunner: Hij is niet alleen goed in beweging, maar blijft ook slim in andere dingen, zoals het herkennen van objecten of het beantwoorden van algemene vragen.

Kortom:
Stel je voor dat je een kind leert fietsen.

  • De oude manier: Je geeft het kind een foto van een fiets en zegt: "Dit is een fiets."
  • De ReMoT-methode: Je zet het kind op een fiets, laat hem vallen, laat hem weer opstaan, en zegt: "Kijk, als je naar links leunt, val je naar links. Als je naar rechts leunt, val je naar rechts." Je laat hem de relatie tussen actie en gevolg voelen.

ReMoT heeft robots geleerd om niet alleen naar beelden te kijken, maar om de dynamiek van de wereld te begrijpen. Ze leren de "dans" van de beweging, in plaats van alleen de statische foto's.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →