REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Each language version is independently generated for its own context, not a direct translation.

REI-Bench: Waarom robots soms "de pot" niet begrijpen als je zegt "dat ding"

Stel je voor dat je een nieuwe robot in huis hebt. Je zegt tegen hem: "Zet die zware spullen buiten."
Een slimme robot zou moeten weten dat je doelt op de zware pannen in de gootsteen. Maar in dit onderzoek ontdekten de auteurs dat robots vaak de verkeerde dingen pakken, zoals een lichte bord of een kom, omdat ze niet weten wat je precies bedoelt met "die zware spullen".

Dit onderzoek, genaamd REI-Bench, gaat over precies dit probleem: Hoe goed begrijpen robots als mensen vaag praten?

1. Het Probleem: De "Vage Taal" van Mensen

Mensen zijn niet altijd duidelijk. We gebruiken vaak woorden als "het", "dat ding" of "die grote". Taalkundigen noemen dit verwijzende uitdrukkingen.

Duidelijk: "Pak de pan." (De robot weet precies wat hij moet doen).
Vaag: "Pak dat ding." (Welk ding? De pan? De pot? De stoel?)

In het echte leven, vooral bij ouderen of kinderen, gebruiken we heel vaak vage taal. We vertrouwen erop dat de luisteraar de context begrijpt (bijvoorbeeld: "We zaten net te koken, dus 'dat ding' is waarschijnlijk de pan"). Robots missen echter vaak die "contextgeheugen". Ze denken dat "dat ding" een willekeurig object is, en dat leidt tot fouten.

2. De Test: Een Speciale Keuken voor Robots

Om dit te testen, hebben de onderzoekers een speciale testbank gemaakt, genaamd REI-Bench.
Stel je dit voor als een gigantisch toneelstuk in een virtuele keuken (een computerprogramma genaamd AI2-THOR).

Ze hebben een database gemaakt met duizenden scenario's waarin ze de instructies van de mens op drie manieren "vervuild" hebben:

Duidelijk: "Pak de pan."
Gemengd: "Pak de pan, en zet die op het aanrecht." (De robot moet weten dat "die" de pan is).
Heel Vaag: "Pak het en zet dat op het aanrecht." (Geen enkele naam, alleen "het" en "dat").

Daarnaast hebben ze de "context" (wat er eerder in het gesprek is gezegd) veranderd:

Normaal: Alles wat je nodig hebt om te begrijpen wat "het" is, is er.
Met Ruis: Ze voegden verwarrende namen toe. Bijvoorbeeld, er is een pan, maar er is ook een persoon genaamd "Pan". De robot moet niet denken dat hij de persoon moet pakken!
Kort: Ze haalden belangrijke informatie uit het gesprek weg, zodat de robot moet raden.

3. De Resultaten: Robots Struikelen over Vage Taal

Toen ze de beste robot-robots (die op grote taalmodellen draaien) op deze test lieten, was het resultaat schokkend:

Als de instructies duidelijk waren, werkten de robots redelijk goed.
Zodra de instructies vaag werden ("dat ding"), daalde het succespercentage met wel 37%.
De robots maakten vooral één grote fout: ze vergeten het juiste object. Ze dachten dat "het" een bord was in plaats van de pan, en pakten het verkeerde ding.

Het is alsof je een kok vraagt: "Gebruik dat ingrediënt voor de soep", maar de kok pakt per ongeluk suiker in plaats van zout, omdat hij niet weet wat "dat ingrediënt" is.

4. De Oplossing: TOCC (De "Vertaler")

De onderzoekers probeerden eerst standaard trucs, zoals de robot vragen om "eerst na te denken" (Chain-of-Thought) of voorbeelden te geven. Dat hielp een beetje, maar niet genoeg.

Daarom bedachten ze een slimme nieuwe methode: TOCC (Task-Oriented Context Cognition).
Je kunt dit zien als het inhuren van een tussenpersoon of een vertaler.

Hoe het werkt: Voordat de robot de daadwerkelijke taak uitvoert (bijv. lopen en pakken), sturen ze de instructie eerst naar een "vertaler".
De taak van de vertaler: "Kijk naar wat de mens eerder gezegd heeft. Als hij zegt 'zet dat ding neer', vertaal dat dan naar 'zet de pan neer'."
Het resultaat: De robot krijgt daarna een heel duidelijke opdracht: "Pak de pan en zet hem neer."

Dit klinkt simpel, maar het werkt wonderbaarlijk goed. Door de vage taal eerst op te lossen voordat de robot gaat plannen, stijgt het succespercentage weer enorm. Het is alsof je eerst de vertaling van een recept maakt voordat je begint met koken, zodat je niet per ongeluk suiker in de soep doet.

Conclusie

Dit onderzoek laat zien dat robots niet alleen slim moeten zijn in het uitvoeren van taken, maar ook slim moeten zijn in het begrijpen van onze menselijke onduidelijkheid.

Als we robots echt willen laten helpen bij ouderen of kinderen (die vaak vaag praten), moeten we ze niet alleen leren wat ze moeten doen, maar ook leren wat we bedoelen met onze vage woorden. De methode TOCC is een belangrijke stap in die richting: eerst de boodschap helder maken, dan pas de robot aan het werk zetten.

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

REI-Bench: Waarom robots soms "de pot" niet begrijpen als je zegt "dat ding"

1. Het Probleem: De "Vage Taal" van Mensen

2. De Test: Een Speciale Keuken voor Robots

3. De Resultaten: Robots Struikelen over Vage Taal

4. De Oplossing: TOCC (De "Vertaler")

Conclusie

Titel: REI-BENCH: Kunnen geëmbodieerde agenten vage menselijke instructies begrijpen in taakplanning?

1. Het Probleem

2. Methodologie

A. REI-Dataset en REI-Bench Benchmark

B. Evaluatie Framework

C. Oplossing: Task-Oriented Context Cognition (TOCC)

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Toekomstperspectief

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

REI-Bench: Waarom robots soms "de pot" niet begrijpen als je zegt "dat ding"

1. Het Probleem: De "Vage Taal" van Mensen

2. De Test: Een Speciale Keuken voor Robots

3. De Resultaten: Robots Struikelen over Vage Taal

4. De Oplossing: TOCC (De "Vertaler")

Conclusie

Titel: REI-BENCH: Kunnen geëmbodieerde agenten vage menselijke instructies begrijpen in taakplanning?

1. Het Probleem

2. Methodologie

A. REI-Dataset en REI-Bench Benchmark

B. Evaluatie Framework

C. Oplossing: Task-Oriented Context Cognition (TOCC)

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Toekomstperspectief

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models