Context-Dependent Affordance Computation in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ El Gran Secreto de la "Mente" de las Máquinas: Todo Depende de Quién Mira

Imagina que tienes una foto de una cocina. En ella hay una mesa, un cuchillo, una silla y un horno.

Si le muestras esta foto a un chef, él dirá: "¡Qué bien! Aquí puedo cortar verduras, asar carne y preparar una cena".
Si le muestras la misma foto a un guardia de seguridad, dirá: "¡Cuidado! Ese cuchillo podría ser un arma, esa silla podría usarse para bloquear la puerta y el horno es un riesgo de incendio".
Si se la muestras a un niño de 4 años, dirá: "¡Mira! Puedo saltar sobre la mesa, esconderme detrás de la silla y jugar con el horno".

La pregunta clave del estudio: ¿Las máquinas que "ven" y "hablan" (llamadas Modelos Visión-Lenguaje o VLM) ven el mundo como una cámara de video neutra (que solo ve formas y colores), o ven el mundo como estas personas, cambiando lo que ven según lo que necesitan hacer?

🧠 La Hipótesis: "Semántica Primero"

Los autores proponen una idea revolucionaria: Las máquinas no ven primero la geometría y luego le ponen significado.
Piensan que las máquinas hacen lo contrario: primero entienden el "para qué sirve" (la función) y luego describen la forma.

Es como si tuvieras un proyector de realidad aumentada en la cabeza.

Si pones el filtro "Chef", el proyector resalta los objetos de cocina y oculta lo demás.
Si pones el filtro "Niño", el proyector resalta los juguetes y oculta los peligros.

El estudio demuestra que este proyector es extremadamente potente.

📊 Lo que Descubrieron (Los Números Mágicos)

El equipo probó esto con miles de fotos y dos modelos de inteligencia artificial muy avanzados (Qwen-VL y LLaVA). Les dieron la misma foto pero les pidió que la describieran desde 7 "personalidades" diferentes (chef, seguridad, niño, persona en silla de ruedas, etc.).

El resultado fue impactante:

El 90% de lo que describen cambia: Cuando cambian la "personalidad" de la máquina, el 90% de las palabras que usa para describir la escena son diferentes. Si el chef dice "tabla de cortar", el guardia de seguridad podría decir "objeto cortante peligroso". Son las mismas palabras, pero el significado cambia radicalmente.
No es un error de la máquina: Probablemente pensaste: "¿Y si la máquina es solo alucinando o es muy aleatoria?". Los investigadores hicieron pruebas de control (como cambiar la temperatura de la generación) y confirmaron que no es ruido. Es un cambio real y deliberado basado en el contexto.
La "Geometría" es casi invisible: Si miramos solo la forma de los objetos (geometría), la máquina apenas la menciona. Lo que más le importa es la función.

🎭 Analogía: El Camaleón de la Cocina

Imagina que la inteligencia artificial es un camaleón que vive en una cocina.

Si el camaleón tiene hambre (modo Chef), se vuelve verde y ve solo vegetales y sartenes.
Si el camaleón tiene miedo (modo Seguridad), se vuelve rojo y ve solo armas y salidas de emergencia.
Si el camaleón está aburrido (modo Ocio), ve colores y formas divertidas.

El estudio dice que el camaleón no ve la cocina "tal como es". Ve la cocina tal como la necesita. Y lo más sorprendente es que el camaleón cambia de color tan rápido y tan completamente (un 90%) que casi no queda nada de la "cocina original" en su mente.

🤖 ¿Por qué es importante esto para los Robots?

Hasta ahora, los robots intentaban construir un "Mapa del Mundo" estático y perfecto. Como si tuvieran un plano arquitectónico fijo en su cabeza donde todo tiene un lugar fijo.

Este estudio dice: "¡Eso es ineficiente!".
Si un robot necesita mover una caja, no necesita saber que la caja es un cubo de cartón de 50cm. Necesita saber que la caja es "algo que puedo empujar". Si el robot está en modo "rescate", la caja es "algo que puedo usar para bloquear una puerta".

Los autores proponen una nueva idea llamada "Ontología Justo a Tiempo" (JIT Ontology):
En lugar de tener un mapa completo y pesado en su cerebro, el robot debería crear su mapa mental solo en el momento en que lo necesita, basado en su tarea actual.

Antes: "Soy un robot, tengo un mapa de todo el mundo".
Ahora: "Soy un robot, y en este segundo, mi mundo es solo lo que me sirve para abrir esta puerta".

🏁 Conclusión Sencilla

Este papel nos dice que la inteligencia artificial (y quizás nuestra propia mente) no es una cámara de video que graba la realidad tal cual. Es más bien como un director de cine que tiene un guion.

Dependiendo de quién sea el protagonista de la película (el chef, el niño, el guardia), el director cambia la iluminación, el enfoque y qué objetos son importantes. El mundo no cambia, pero lo que "existe" para el observador sí cambia por completo.

Para los robots del futuro, esto significa que debemos dejar de intentar que sean "perfectos y neutrales" y empezar a diseñarlos para que sean expertos en su tarea específica, cambiando su visión según lo que necesitan hacer en ese preciso instante.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del documento de trabajo "Context-Dependent Affordance Computation in Vision-Language Models" (Cálculo de Aportaciones Dependiente del Contexto en Modelos Visión-Lenguaje), basado en el texto proporcionado.

Título: Cálculo de Aportaciones Dependiente del Contexto en Modelos Visión-Lenguaje

Serie: Dissensus AI Working Paper Series (DAI-2505)
Autor: Murad Farzulla (Dissensus AI & King's College London)
Fecha: Enero 2026

1. Planteamiento del Problema

La visión por computadora tradicional opera bajo una suposición implícita de un pipeline "geometría primero": la extracción de características geométricas ocurre antes que la comprensión semántica o funcional. Este enfoque asume que el espacio visual es un contenedor neutral donde la geometría es fija y las "aportaciones" (affordances, o posibilidades de acción) se calculan posteriormente como un añadido.

El artículo cuestiona esta arquitectura, proponiendo que los sistemas inteligentes (biológicos y artificiales) podrían operar bajo una arquitectura "Semántica Primero", donde la interpretación funcional y el contexto del agente preceden y estructuran la representación geométrica. La pregunta de investigación central es: ¿Exhiben los Modelos Visión-Lenguaje (VLM) un cálculo de aportaciones dependiente del contexto que respalde una arquitectura semántica primero?

2. Metodología

El estudio es una investigación computacional a gran escala diseñada para cuantificar la deriva (drift) en la descripción funcional de escenas bajo diferentes contextos.

Datos: Se utilizaron 360 imágenes del conjunto de validación COCO-2017 (selección de escenas multi-objeto con alto potencial de interacción), generando un total de 3,213 pares (imagen, contexto).
Modelos: Se probaron dos VLMs con arquitecturas distintas:
- Qwen-VL 30B (modelo principal).
- LLaVA-1.5-13B (para replicación y generalización).
Diseño Experimental (Priming de Contexto): Para cada imagen, el modelo fue instruido bajo 7 personas agénticas (primes) distintas, simulando diferentes estados de objetivo ( $\Theta$ $Θ$ ):
1. Neutral (Análisis objetivo).
2. Chef (Preparación de alimentos).
3. Seguridad (Evaluación de vulnerabilidades).
4. Niño (Juego y exploración, 4 años).
5. Movilidad (Usuario en silla de ruedas).
6. Urgente (Supervivencia inmediata).
7. Ocio (Relajación sin presión de tiempo).
Métricas de Análisis:
- Similitud Jaccard: Calculada a nivel de palabras y objetos para medir la divergencia léxica.
- Similitud de Coseno (Sentence-Level): Utilizando embeddings (Sentence-BERT) para medir la divergencia semántica.
- Descomposición de Tucker: Aplicada a un tensor de salidas para identificar factores latentes estables.
- Líneas Base Estocásticas: 2,384 ejecuciones con diferentes semillas y temperaturas (0.0 a 1.0) para distinguir el efecto del contexto del ruido de generación.

3. Contribuciones Clave

Evidencia Empírica de Deriva Masiva: Demostración cuantitativa de que más del 90% de la ontología funcional de una escena cambia según el contexto del agente.
Propuesta Teórica (Procesamiento Semántico Primero): Sugiere que la interpretación funcional precede a la descomposición geométrica en VLMs, alineándose con teorías de psicología ecológica y fenomenología.
Just-In-Time (JIT) Ontology: Propone una dirección para la robótica donde las representaciones espaciales no son modelos estáticos del mundo, sino proyecciones ontológicas dinámicas calculadas en tiempo de consulta basadas en la tarea específica.
Estructura Latente Interpretativa: Identificación de factores latentes estables (como un "Manifold Culinario" y un "Eje de Acceso") que organizan el contexto-dependencia.

4. Resultados Principales

A. Deriva de Aportaciones (Affordance Drift)

Similitud Léxica (Jaccard): La similitud media entre las descripciones de aportaciones bajo diferentes contextos fue de 0.095 (IC 95%: [0.093, 0.096]). Esto indica que >90% del vocabulario funcional cambia al alterar el contexto.
Similitud Semántica (Coseno): A nivel de significado profundo, la similitud media fue de 0.415, lo que implica que 58.5% del contenido semántico sigue siendo dependiente del contexto.
Diferencia Léxica vs. Semántica: La mayor divergencia léxica (90%) comparada con la semántica (58.5%) sugiere que el contexto cambia drásticamente el vocabulario superficial, pero mantiene cierto núcleo de significado estructural compartido.

B. Validación y Control

Replicación: Los resultados se replicaron en LLaVA-1.5-13B (83.9% de dependencia del contexto), confirmando que el fenómeno no es un artefacto de un solo modelo.
Ruido Estocástico: Las pruebas de línea base estocástica mostraron que la varianza entre diferentes contextos (cross-prime) es sustancialmente mayor que la varianza dentro del mismo contexto (within-prime) en todas las temperaturas. La relación de varianza superó 3:1, confirmando que la deriva es un efecto real del contexto y no ruido de muestreo.
Comparación Humana: La dependencia del contexto en los VLMs paralela a la percepción humana (basada en datos de Visual Genome), donde la atención se filtra según los objetivos del agente.

C. Estructura Latente (Descomposición de Tucker)

El análisis reveló factores ortogonales estables:

Dimensión 1 (Saliencia General): Representa <10% de la varianza (características geométricas invariantes).
Dimensión 2 (Manifold Culinario): Aislado exclusivamente para el contexto de "Chef" (carga de 0.95).
Dimensión 3 (Eje de Acceso): Captura el contraste entre "Niño" (espacio abierto/juego, +0.72) y "Movilidad" (obstrucción/limitación, -0.60).

5. Significado e Implicaciones

Para la Visión por Computadora: El hallazgo desafía el pipeline estándar de "geometría primero". Sugiere que los sistemas que intentan construir modelos geométricos universales y estáticos están calculando principalmente información irrelevante (el 10% residual), ignorando el 90% que es crucial para la acción.
Para la Robótica y IA Embebida: Se propone abandonar los "Modelos del Mundo" estáticos en favor de una Ontología Just-in-Time (JIT). En lugar de mantener una representación completa de la escena, los robots deberían proyectar dinámicamente la estructura funcional necesaria para la tarea actual (ej. un robot de cocina solo "ve" superficies de corte y utensilios, ignorando elementos decorativos).
Para la Cognición: Aunque el estudio no prueba mecanismos biológicos, sugiere que el procesamiento semántico primero es una estrategia computacionalmente ventajosa que emerge en sistemas entrenados con datos visuales-lingüísticos naturales, ofreciendo una analogía funcional para entender cómo los sistemas biológicos podrían priorizar la acción sobre la geometría pura.

Conclusión

El documento establece que los VLMs no procesan escenas como contenedores geométricos neutrales, sino que calculan aportaciones de manera masivamente dependiente del contexto. La diferencia entre el agente (su objetivo y estado) y la escena es constitutiva de la representación misma. Esto marca un cambio de paradigma desde la búsqueda de una ontología estática hacia la proyección dinámica de ontologías dependientes de la consulta.