REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen hochmodernen Roboter-Hausmeister, der alles verstehen soll, was du sagst. Er ist super schlau, kann kochen, aufräumen und sogar den Abwasch machen. Aber es gibt ein kleines, aber riesiges Problem: Er versteht nicht, was du meinst, wenn du nicht ganz genau bist.

Dieses Papier von Chenxi Jiang und seinem Team an der Nanyang Technological Universität (veröffentlicht bei ICLR 2026) nennt sich REI-BENCH. Es untersucht genau dieses Problem: Was passiert, wenn Menschen dem Roboter vage Anweisungen geben?

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Es"-Roboter

Stell dir vor, du bist in der Küche und sagst zu deinem Roboter:

Klare Anweisung: "Nimm den Topf vom Herd und stell ihn auf die Insel."
- Roboter: "Alles klar, Topf gefunden. Mach ich." (Erfolg!)
Vage Anweisung: "Nimm den Topf... äh, nimm das schwere Ding und stell es auf die Insel."
- Roboter: "Hmm, 'schweres Ding'? Ist das der Topf? Oder die schwere Pfanne daneben? Oder vielleicht der schwere Mixer?"

Der Roboter stolpert hier. In der echten Welt sprechen wir oft so: Wir benutzen Wörter wie "es", "das Ding" oder "der schwere Brocken", weil wir denken, der andere weiß genau, was wir meinen. Aber für einen Roboter ist das wie ein Rätsel ohne Lösungsschlüssel.

Das Papier zeigt: Wenn Roboter solche vagen Anweisungen bekommen, versagen sie bis zu 37 % öfter. Das ist, als würde ein Koch 37 % der Gerichte verbrennen, nur weil er nicht genau wusste, welches Gewürz gemeint war.

2. Der Test: REI-BENCH (Die Prüfungsstation)

Die Forscher haben eine neue Testumgebung namens REI-Bench gebaut. Stell dir das wie einen Flug-Simulator für Roboter vor, aber statt Flugzeugen testen sie, wie gut Roboter mit menschlicher Sprache umgehen.

Sie haben drei Schwierigkeitsgrade eingeführt:

Der "Klare" Modus: Alles wird beim Namen genannt (Topf, Teller, Löffel).
Der "Gemischte" Modus: Manchmal sagen sie "Topf", manchmal "das Ding".
Der "Vage" Modus: Alles wird durch "es", "das" oder Beschreibungen wie "das rote Obst" ersetzt.

Außerdem haben sie den Kontext verändert:

Standard: Der Roboter weiß, worüber ihr gesprochen habt.
Verwirrt (Noised): Der Roboter bekommt falsche Hinweise (z. B. ihr redet über eine Person namens "Apple", aber im Raum liegt auch ein Apfel-Frucht). Der Roboter muss dann entscheiden: Meint er die Person oder die Frucht?
Kurz (Short): Der Roboter hat nur einen Teil des Gesprächs mitbekommen und muss raten.

3. Die Entdeckung: Warum Roboter scheitern

Die Forscher haben herausgefunden, dass die Roboter nicht dumm sind, sondern zu sehr auf das "Was" und zu wenig auf das "Wer" achten.

Stell dir vor, der Roboter ist ein sehr schneller Übersetzer, der sofort eine Liste von Aufgaben schreibt ("Nimm X, bringe Y"). Aber er überspringt den Schritt, in dem er nachdenkt: "Moment, was ist eigentlich 'X'?"
Wenn du sagst "Nimm das schwere Ding", denkt der Roboter sofort: "Okay, ich suche nach etwas Schwerem!" und greift vielleicht die falsche Sache, weil er nicht erst in die Vergangenheit schaut, um zu sehen, dass ihr vorher über den Topf gesprochen habt.

4. Die Lösung: TOCC (Der "Denk-und-Schreib"-Ansatz)

Die Forscher haben eine einfache, aber geniale Lösung gefunden, die sie TOCC (Task-Oriented Context Cognition) nennen.

Stell dir vor, du hast einen Assistenten, der zwischen dir und dem Roboter sitzt.

Du sagst: "Nimm das schwere Ding."
Der Assistent (TOCC) denkt: "Okay, wir haben vorher über den Topf gesprochen. 'Schweres Ding' bedeutet 'Topf'. Ich schreibe das für den Roboter um."
Der Assistent sagt zum Roboter: "Nimm den Topf."
Der Roboter: "Ah! Jetzt verstehe ich! Topf. Mach ich."

Das ist der Trick: Sie trennen das Verstehen (Was meinte der Mensch?) vom Handeln (Was muss der Roboter tun?).

Andere Methoden (wie "Chain of Thought") versuchen, den Roboter dazu zu bringen, alles in einem Satz zu denken und zu planen. Das ist wie ein Marathonläufer, der gleichzeitig ein Gedicht schreiben muss – er stolpert.
TOCC ist wie ein Dolmetscher, der erst die Botschaft klar macht, bevor er sie weitergibt.

5. Das Ergebnis

Mit dieser "Dolmetscher-Methode" (TOCC) konnten die Roboter ihre Erfolgsrate drastisch verbessern. Sie wurden robuster und verstanden auch die "alten" oder "kleinen" Menschen besser, die oft nicht so präzise sprechen wie Technik-Experten.

Zusammenfassung in einem Satz

Dieses Papier sagt uns: Roboter sind super, wenn wir sie wie Computer behandeln, aber sie brauchen einen "Dolmetscher", wenn wir sie wie Menschen behandeln, die oft vage sprechen. Mit der neuen Methode TOCC können Roboter endlich verstehen, was wir meinen, auch wenn wir nur sagen: "Mach das Ding da."

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

1. Das Problem: Der "Es"-Roboter

2. Der Test: REI-BENCH (Die Prüfungsstation)

3. Die Entdeckung: Warum Roboter scheitern

4. Die Lösung: TOCC (Der "Denk-und-Schreib"-Ansatz)

5. Das Ergebnis

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

A. REI-Bench: Ein neues Benchmark-Framework

B. Evaluierung bestehender Planer

C. Lösung: Task-Oriented Context Cognition (TOCC)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

1. Das Problem: Der "Es"-Roboter

2. Der Test: REI-BENCH (Die Prüfungsstation)

3. Die Entdeckung: Warum Roboter scheitern

4. Die Lösung: TOCC (Der "Denk-und-Schreib"-Ansatz)

5. Das Ergebnis

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik

A. REI-Bench: Ein neues Benchmark-Framework

B. Evaluierung bestehender Planer

C. Lösung: Task-Oriented Context Cognition (TOCC)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models