Context-Dependent Affordance Computation in Vision-Language Models

Este estudio demuestra que los modelos de visión y lenguaje exhiben una deriva masiva en el cálculo de las posibilidades de acción (affordances) dependiendo del contexto, lo que sugiere la necesidad de ontologías dinámicas y dependientes de la consulta en lugar de modelos estáticos del mundo.

Murad Farzulla

Publicado 2026-03-06
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ El Gran Secreto de la "Mente" de las Máquinas: Todo Depende de Quién Mira

Imagina que tienes una foto de una cocina. En ella hay una mesa, un cuchillo, una silla y un horno.

Si le muestras esta foto a un chef, él dirá: "¡Qué bien! Aquí puedo cortar verduras, asar carne y preparar una cena".
Si le muestras la misma foto a un guardia de seguridad, dirá: "¡Cuidado! Ese cuchillo podría ser un arma, esa silla podría usarse para bloquear la puerta y el horno es un riesgo de incendio".
Si se la muestras a un niño de 4 años, dirá: "¡Mira! Puedo saltar sobre la mesa, esconderme detrás de la silla y jugar con el horno".

La pregunta clave del estudio: ¿Las máquinas que "ven" y "hablan" (llamadas Modelos Visión-Lenguaje o VLM) ven el mundo como una cámara de video neutra (que solo ve formas y colores), o ven el mundo como estas personas, cambiando lo que ven según lo que necesitan hacer?

🧠 La Hipótesis: "Semántica Primero"

Los autores proponen una idea revolucionaria: Las máquinas no ven primero la geometría y luego le ponen significado.
Piensan que las máquinas hacen lo contrario: primero entienden el "para qué sirve" (la función) y luego describen la forma.

Es como si tuvieras un proyector de realidad aumentada en la cabeza.

  • Si pones el filtro "Chef", el proyector resalta los objetos de cocina y oculta lo demás.
  • Si pones el filtro "Niño", el proyector resalta los juguetes y oculta los peligros.

El estudio demuestra que este proyector es extremadamente potente.

📊 Lo que Descubrieron (Los Números Mágicos)

El equipo probó esto con miles de fotos y dos modelos de inteligencia artificial muy avanzados (Qwen-VL y LLaVA). Les dieron la misma foto pero les pidió que la describieran desde 7 "personalidades" diferentes (chef, seguridad, niño, persona en silla de ruedas, etc.).

El resultado fue impactante:

  1. El 90% de lo que describen cambia: Cuando cambian la "personalidad" de la máquina, el 90% de las palabras que usa para describir la escena son diferentes. Si el chef dice "tabla de cortar", el guardia de seguridad podría decir "objeto cortante peligroso". Son las mismas palabras, pero el significado cambia radicalmente.
  2. No es un error de la máquina: Probablemente pensaste: "¿Y si la máquina es solo alucinando o es muy aleatoria?". Los investigadores hicieron pruebas de control (como cambiar la temperatura de la generación) y confirmaron que no es ruido. Es un cambio real y deliberado basado en el contexto.
  3. La "Geometría" es casi invisible: Si miramos solo la forma de los objetos (geometría), la máquina apenas la menciona. Lo que más le importa es la función.

🎭 Analogía: El Camaleón de la Cocina

Imagina que la inteligencia artificial es un camaleón que vive en una cocina.

  • Si el camaleón tiene hambre (modo Chef), se vuelve verde y ve solo vegetales y sartenes.
  • Si el camaleón tiene miedo (modo Seguridad), se vuelve rojo y ve solo armas y salidas de emergencia.
  • Si el camaleón está aburrido (modo Ocio), ve colores y formas divertidas.

El estudio dice que el camaleón no ve la cocina "tal como es". Ve la cocina tal como la necesita. Y lo más sorprendente es que el camaleón cambia de color tan rápido y tan completamente (un 90%) que casi no queda nada de la "cocina original" en su mente.

🤖 ¿Por qué es importante esto para los Robots?

Hasta ahora, los robots intentaban construir un "Mapa del Mundo" estático y perfecto. Como si tuvieran un plano arquitectónico fijo en su cabeza donde todo tiene un lugar fijo.

Este estudio dice: "¡Eso es ineficiente!".
Si un robot necesita mover una caja, no necesita saber que la caja es un cubo de cartón de 50cm. Necesita saber que la caja es "algo que puedo empujar". Si el robot está en modo "rescate", la caja es "algo que puedo usar para bloquear una puerta".

Los autores proponen una nueva idea llamada "Ontología Justo a Tiempo" (JIT Ontology):
En lugar de tener un mapa completo y pesado en su cerebro, el robot debería crear su mapa mental solo en el momento en que lo necesita, basado en su tarea actual.

  • Antes: "Soy un robot, tengo un mapa de todo el mundo".
  • Ahora: "Soy un robot, y en este segundo, mi mundo es solo lo que me sirve para abrir esta puerta".

🏁 Conclusión Sencilla

Este papel nos dice que la inteligencia artificial (y quizás nuestra propia mente) no es una cámara de video que graba la realidad tal cual. Es más bien como un director de cine que tiene un guion.

Dependiendo de quién sea el protagonista de la película (el chef, el niño, el guardia), el director cambia la iluminación, el enfoque y qué objetos son importantes. El mundo no cambia, pero lo que "existe" para el observador sí cambia por completo.

Para los robots del futuro, esto significa que debemos dejar de intentar que sean "perfectos y neutrales" y empezar a diseñarlos para que sean expertos en su tarea específica, cambiando su visión según lo que necesitan hacer en ese preciso instante.