Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Each language version is independently generated for its own context, not a direct translation.

🚫 El Problema: "Más datos no significan más inteligencia"

Imagina que tienes un estudiante muy brillante (un modelo de Inteligencia Artificial) al que le has dado billones de libros para leer. La gente cree que, si le das suficientes libros, el estudiante aprenderá a hacer de todo: contar, entender el espacio, negar cosas y entender el tiempo.

Pero este paper nos dice algo sorprendente: No importa cuántos libros leas, si todos los libros te ocultan la misma información, nunca aprenderás lo que falta.

Los autores llaman a esto "Sesgo de Reporte".

🗣️ La Analogía del Fotógrafo y el Periodista

Imagina que eres un fotógrafo y le pides a un periodista que escriba una nota sobre una foto que acabas de tomar.

La foto: Muestra a 37 personas paradas detrás de un campo de fútbol.
Lo que escribe el periodista: "¡Qué gran partido hoy!".

¿Por qué no escribió "37 personas"? Porque, en la vida real, cuando hablamos, omitimos lo obvio o lo que no creemos necesario.

Si ves un perro y un gato, dices "un perro y un gato". No dices "un perro a la izquierda de un gato" a menos que sea crucial.
Si ves un perro, no dices "no hay un elefante". Eso sería ridículo.
Si ves a alguien lanzando una pelota, no dices "y después la pelota caerá", porque es obvio.

El problema: Las Inteligencias Artificiales (IA) se entrenan con fotos y textos escritos por humanos en internet. Como los humanos somos "perezosos" al describir cosas (omitimos detalles espaciales, contados, negaciones y tiempo), la IA nunca ve esos ejemplos.

La IA piensa: "Nadie nunca me ha dicho que cuente o que use 'no', así que supongo que no es importante".

🔍 Lo que descubrieron los investigadores

Los autores analizaron los "libros" (datos) que usan las IAs más famosas (como OpenCLIP, LLaVA, Molmo) y encontraron cuatro áreas donde la IA es terrible porque los humanos no las describen bien:

Espacio: ¿Qué está a la izquierda? ¿Qué está encima? (Los humanos rara vez lo escriben).
Tiempo: ¿Qué pasó antes? ¿Qué pasará después? (Los humanos solo describen el "ahora").
Negación: ¿Qué no está en la foto? (Nadie escribe "no hay un unicornio").
Conteo: ¿Cuántos objetos hay? (Decir "un grupo de pájaros" es más fácil que decir "5 pájaros").

El resultado: Aunque las IAs son gigantes y ven millones de fotos, fallan estrepitosamente en estas tareas. Si les preguntas "¿Cuántos cebra hay?", a menudo adivinan mal.

📈 ¿Por qué "hacerla más grande" no funciona?

Mucha gente cree que la solución es simple: "Hagamos el modelo más grande y leemos más datos".

El paper dice que esto es como intentar aprender a tocar el piano leyendo 1 millón de libros de cocina. No sirve de nada.

Hicieron pruebas: Aumentaron el tamaño de la IA y la cantidad de datos.
Resultado: La IA mejoró un poquito en algunas cosas, pero en las tareas de "lógica oculta" (contar, negar, espacio), siguió fallando.
Conclusión: No puedes "escalar" tu camino hacia la inteligencia si el problema es que los datos de entrada están "mudos" sobre esos temas.

🛠️ La Solución: "El Manual de Instrucciones"

Entonces, ¿cómo arreglamos esto? No necesitamos más datos, necesitamos mejores instrucciones.

Imagina que vuelves a pedirle al periodista que escriba sobre la foto, pero esta vez le das un manual de instrucciones:

"Por favor, cuenta exactamente cuántas personas hay".
"Describe qué hay a la izquierda y a la derecha".
"Menciona qué NO está en la imagen".

El experimento:
Los investigadores hicieron un estudio donde pidieron a humanos que describieran fotos.

Sin instrucciones: Escribieron lo de siempre (omitían detalles).
Con instrucciones específicas: ¡Bum! De repente, los textos tenían muchos más detalles de conteo, espacio y tiempo.

La magia: Cuando entrenaron a una IA con estos nuevos textos (creados con instrucciones específicas), la IA mejoró mucho en esas tareas.

💡 La Lección Principal

La inteligencia no surge mágicamente por tener más datos (como creíamos antes). Surge por curar cuidadosamente esos datos.

Antes: "Demos a la IA todo lo que encuentre en internet y verás qué aprende".
Ahora: "Debemos decirle a la IA (y a los humanos que crean sus datos) exactamente qué tipos de lógica queremos que aprenda".

En resumen:
Las IAs actuales son como un estudiante que ha leído todo internet, pero como internet está lleno de descripciones superficiales, el estudiante no sabe contar ni entender el espacio. Para que sea inteligente, no necesitamos darle más libros; necesitamos enseñarle a los autores de los libros a escribir mejor.

El paper nos dice que el futuro de la IA no es solo "más grande", sino más intencional.

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

🚫 El Problema: "Más datos no significan más inteligencia"

🗣️ La Analogía del Fotógrafo y el Periodista

🔍 Lo que descubrieron los investigadores

📈 ¿Por qué "hacerla más grande" no funciona?

🛠️ La Solución: "El Manual de Instrucciones"

💡 La Lección Principal

1. El Problema: La Paradoja de la Razonamiento en VLMs

2. Metodología

A. Hipótesis Teóricas y Análisis de Corpora

B. Creación de Benchmarks

C. Evaluación de Modelos y Leyes de Escala

D. Estudio de Usuario y Mitigación

3. Resultados Clave

Rendimiento de los Modelos

El Fracaso del "Scaling" (Escalado)

Impacto de las Instrucciones de Anotación

4. Contribuciones Principales

5. Significado e Implicaciones

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

🚫 El Problema: "Más datos no significan más inteligencia"

🗣️ La Analogía del Fotógrafo y el Periodista

🔍 Lo que descubrieron los investigadores

📈 ¿Por qué "hacerla más grande" no funciona?

🛠️ La Solución: "El Manual de Instrucciones"

💡 La Lección Principal

1. El Problema: La Paradoja de la Razonamiento en VLMs

2. Metodología

A. Hipótesis Teóricas y Análisis de Corpora

B. Creación de Benchmarks

C. Evaluación de Modelos y Leyes de Escala

D. Estudio de Usuario y Mitigación

3. Resultados Clave

Rendimiento de los Modelos

El Fracaso del "Scaling" (Escalado)

Impacto de las Instrucciones de Anotación

4. Contribuciones Principales

5. Significado e Implicaciones

Más como este

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora