RobotArena \infty: Scalable Robot Benchmarking via Real-to-Sim Translation

Dit paper introduceert RobotArena Infinity, een schaalbaar benchmarkkader dat real-world robotbeleid evalueert in gesimuleerde omgevingen door video-demonstraties automatisch om te zetten en gebruik te maken van online menselijke feedback voor reproduceerbare en robuuste prestatie-metingen.

Yash Jangir, Yidi Zhang, Pang-Chi Lo, Kashu Yamazaki, Chenyu Zhang, Kuan-Hsun Tu, Tsung-Wei Ke, Lei Ke, Yonatan Bisk, Katerina Fragkiadaki

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

RobotArena ∞: De Grote Robot-Olympiade in de Digitale Wereld

Stel je voor dat je wilt weten welke robot de beste is. Vroeger was dit een enorme gedoe. Je moest de robots fysiek bouwen, ze naar een laboratorium sturen, ze een taak laten uitvoeren (zoals een kopje opruimen), en dan moest een menselijke trainer de hele dag lang toekijken, de robots terugzetten als ze iets verkeerds deden, en beoordelen of het goed ging. Dit is duur, traag, gevaarlijk en moeilijk te herhalen. Het is alsof je elke keer als je een nieuw autootest wilt doen, de hele weg moet herleggen en een nieuwe brug moet bouwen.

De auteurs van dit paper, RobotArena ∞, hebben een slimme oplossing bedacht. Ze zeggen: "Waarom testen we ze niet in een perfecte digitale wereld die we automatisch maken?"

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Tijdmachine" (Van Video naar Simulatie)

Stel je voor dat je een video hebt van een menselijke robot die een taak uitvoert, zoals een tomaat in een pan doen.

  • Het oude probleem: Je kunt die video niet zomaar in een computerspel spelen. De computer begrijpt niet hoe de wereld eruitziet.
  • De nieuwe truc: RobotArena ∞ gebruikt slimme AI (zoals een superkrachtige camera en een 3D-ontwerper) om die video te "ontleden". Het kijkt naar de video en bouwt automatisch een exacte digitale kopie (een "tweeling") van die scène.
    • Het maakt een 3D-model van de tomaat, de pan en de robotarm.
    • Het berekent hoe zwaar de tomaat is en hoe de robotarm beweegt.
    • Het creëert een digitale achtergrond.

Het is alsof je een foto van een kamer maakt en de computer daar direct een volledig speelbaar 3D-gebouw van maakt, compleet met zwaartekracht en wrijving.

2. De "Gymzaal met Verrassingen" (Testen op Sterke Spieren)

In deze digitale wereld kunnen ze de robots nu duizenden keren laten oefenen, zonder dat er iemand hoeft te slapen of te eten. Maar ze doen meer dan alleen maar testen. Ze maken het moeilijker om te zien welke robot echt slim is.

Ze gooien "verrassingen" in de digitale wereld:

  • Verander de achtergrond: Plotseling is de muur niet meer wit, maar roze of heeft hij een behang met bloemen.
  • Verander de kleuren: De tomaat wordt plotseling blauw of groen.
  • Verander de positie: De pan staat niet meer op de tafel, maar op de vloer.

Dit is als een sporter die niet alleen op een vlakke baan rent, maar ook op zand, in de regen en met een rugzak. Als de robot faalt bij een blauwe tomaat, betekent dat dat hij alleen maar heeft geleerd om naar rode tomaten te kijken, en niet echt begrijpt wat een tomaat is.

3. De "Scheidsrechters" (Mensen en AI)

Hoe weten ze of de robot het goed heeft gedaan? Ze gebruiken twee methoden:

  • De AI-Scheidsrechter (VLM): Een super-slimme computer die naar de video kijkt en zegt: "Oké, de robot heeft de tomaat vastgepakt, maar hij heeft hem niet in de pan gedaan. Score: 70%." Dit gaat razendsnel.
  • De Menselijke Scheidsrechter (Crowdsourcing): Dit is het leukste deel. Ze laten duizenden gewone mensen (via internet) twee video's naast elkaar zien. Ze vragen: "Welke robot deed het beter?"
    • Mens A: "Deze robot was rustiger."
    • Mens B: "Die andere gooide de tomaat per ongeluk op de grond."
    • Net zoals bij LMarena (waar mensen stemmen op welke AI-chatbot het beste praat), bouwen ze hierdoor een ranglijst op.

Wat hebben ze ontdekt?

Toen ze dit systeem gebruikten om verschillende robots uit de hele wereld te testen, kwamen ze tot een paar verrassende conclusies:

  1. Ze zijn niet echt "algemeen" slim: Veel robots die goed zijn in het oefenen, zakken volledig als je de achtergrond verandert of de kleuren anders maakt. Ze hebben eigenlijk gewoon de "opdracht uit het hoofd geleerd" in plaats van het echt te begrijpen.
  2. De beste modellen winnen: Sommige robots (zoals π0 en X-VLA) bleven het beste presteren, zelfs als de omgeving veranderde.
  3. De "Ruimte-Paradox": De robots die het beste werkten, hadden vaak getraind met camera's die ook aan hun "pols" zaten (meerdere hoeken). Dit gaf hen een beter gevoel voor 3D-ruimte dan robots die alleen maar naar één camera keken.

Waarom is dit belangrijk?

Vroeger duurde het maanden om te testen of een nieuwe robot slim was. Met RobotArena ∞ kunnen onderzoekers nu duizenden tests per dag doen. Het is een oneindige arena waar robots kunnen groeien, falen en leren, zonder dat er een menselijke hand nodig is om de proefopstelling elke keer opnieuw in te stellen.

Kortom: Ze hebben de robotwereld veranderd van een dure, saaie testbaan in een dynamisch, automatisch en oneindig trainingscentrum, waar we eindelijk kunnen zien welke robots echt klaar zijn voor de echte wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →