REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Este trabajo presenta REI-Bench, el primer benchmark para la planificación de tareas robóticas que modela sistemáticamente las referencias vagas en las instrucciones humanas, demostrando que dicha vaguedad degrada significativamente el rendimiento de los modelos de lenguaje y proponiendo una solución basada en la cognición contextual orientada a tareas que logra un estado del arte al generar instrucciones claras.

Chenxi Jiang, Chuhao Zhou, Jianfei Yang

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un robot en tu casa, un ayudante perfecto que puede cocinar, limpiar y ordenar. Pero hay un pequeño problema: a veces, cuando le hablas, el robot se queda mirándote con cara de "¿Qué dijiste?".

Este paper (un artículo de investigación) se llama REI-Bench y trata exactamente sobre ese problema: ¿Por qué los robots se confunden cuando les damos instrucciones vagas?

Aquí te lo explico con una historia sencilla y algunas analogías divertidas:

1. El Problema: "Mueve esa cosa pesada" 🤔

Imagina que estás en la cocina con tu robot.

  • Instrucción clara: "Por favor, mueve la olla del fregadero a la encimera". El robot sabe exactamente qué agarrar.
  • Instrucción vaga: "Por favor, mueve esa cosa pesada fuera".

¿Qué es "esa cosa pesada"? ¿Es la olla? ¿Es una sartén? ¿Es una caja de herramientas?
En el mundo real, los humanos (especialmente los niños o las personas mayores) no hablan como robots. Usamos palabras como "eso", "lo de ahí" o "la cosa roja" porque nuestro cerebro conecta los puntos automáticamente. Pero el robot, si no tiene una memoria perfecta, se pierde.

Los investigadores descubrieron que cuando los robots reciben estas instrucciones vagas, fallan mucho más a menudo (hasta un 37% más de errores). ¡Se equivocan de objeto y agarran un plato en lugar de la olla!

2. La Prueba de Fuego: REI-Bench 🧪

Para estudiar esto, los científicos crearon un "campo de entrenamiento" llamado REI-Bench. Es como un videojuego de simulación donde:

  • Crearon miles de conversaciones entre humanos y robots.
  • Introdujeron "ruido" (como mencionar a un familiar llamado "Manzana" para confundir al robot con la fruta "manzana").
  • Hicieron que las instrucciones fueran cada vez más vagas.

La analogía: Imagina que le das a un robot un mapa. Si el mapa dice "Ve a la casa azul", es fácil. Pero si el mapa dice "Ve a la casa de mi tío, la que tiene el perro que ladra", y no le dices quién es tu tío ni qué perro tiene, el robot se queda dando vueltas. REI-Bench mide cuántas vueltas da antes de chocar contra la pared.

3. ¿Por qué fallan los robots? 🤖💥

Los investigadores probaron varios robots inteligentes (usando la tecnología de Inteligencia Artificial llamada LLM, que es como un cerebro digital muy avanzado). Descubrieron algo curioso:

  • El robot sí sabe lo que significa "esa cosa pesada" si le preguntas directamente.
  • Pero cuando tiene que planear qué hacer (moverse, agarrar, soltar), su cerebro se satura pensando en los pasos y olvida resolver la confusión de la palabra.

Es como si un conductor de taxi fuera tan bueno calculando la ruta que se olvidara de preguntar al pasajero: "¿A qué calle exacta quieres ir?".

4. La Solución: TOCC (El Traductor de Contexto) 🧠✨

En lugar de intentar hacer al robot más inteligente (lo cual es difícil y costoso), los autores propusieron una solución sencilla y brillante llamada TOCC (Cognición de Contexto Orientada a Tareas).

La analogía del Traductor:
Imagina que tienes un jefe muy ocupado (el robot planificador) que no tiene tiempo para leer cartas confusas.

  1. Antes: Leías la carta vaga ("Trae la cosa roja") directamente al jefe. Él se confundía y traía el objeto equivocado.
  2. Con TOCC: Primero, un traductor (un pequeño asistente de IA) lee la carta, mira el contexto de la conversación anterior, y la reescribe para el jefe: "Oye, por 'cosa roja' te refieres a la manzana en la mesa. Por favor, trae la manzana".
  3. Luego, el jefe recibe la instrucción clara y la ejecuta perfectamente.

¿Qué logró esto?

  • Separó la tarea de "entender qué significa la palabra" de la tarea de "decidir qué hacer".
  • Funcionó mejor que otros métodos complejos.
  • Es rápido y no necesita supercomputadoras.

5. ¿Por qué es importante? 🌍

Este trabajo es vital porque el futuro de los robots no es para expertos en tecnología, sino para abuelos, niños y personas comunes.

  • Una abuela no va a decir: "Robot, ejecuta el protocolo de limpieza del objeto A".
  • Dirá: "Ayúdame a limpiar esto que está sucio".

Si los robots no entienden el "esto", "aquello" o "lo de ayer", nunca serán verdaderos ayudantes en casa. Este paper nos enseña que para que los robots sean útiles, primero debemos enseñarles a escuchar el contexto, no solo a leer palabras.

En resumen 📝

Los robots son genios calculando, pero a veces son torpes entendiendo el lenguaje humano vago. Los autores crearon un examen (REI-Bench) para medir esto y encontraron una solución simple: antes de que el robot piense qué hacer, alguien (o algo) debe traducir la instrucción vaga a una clara. ¡Y así, el robot deja de agarrar platos en lugar de ollas!