Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un grupo de genios visuales (Inteligencias Artificiales) que son expertos resolviendo problemas de matemáticas y ciencias. Si les muestras un dibujo de un triángulo y les preguntas en inglés "¿cuánto mide este ángulo?", responden con un 90% de acierto. Son brillantes.

Pero, ¿qué pasa si les haces la misma pregunta, con el mismo dibujo, pero en hindi, tamil o bengalí?

Este estudio, realizado por un investigador de la India, es como una auditoría de realidad para ver si estos genios son realmente "multilingües" o si solo son genios en inglés disfrazados.

Aquí tienes la explicación sencilla, con algunas analogías para que lo entiendas mejor:

1. El Experimento: La Misma Prueba, Diferente Idioma

El investigador tomó 980 preguntas difíciles de matemáticas y ciencias (con sus imágenes) y las tradujo a 6 idiomas indios principales. Luego, probó 8 modelos de IA diferentes (desde modelos pequeños y gratuitos hasta los más potentes como GPT-4o).

La analogía: Imagina que tienes un examen de matemáticas. El profesor te da el mismo problema de geometría, pero en un día te lo escribe en inglés y al siguiente en tu lengua materna. Si el profesor te da una mala nota solo porque el idioma cambió, algo falla en el sistema de evaluación, no en tu capacidad de razonar.

2. Los Hallazgos Principales: La "Brecha de Idioma"

El resultado fue contundente: La inteligencia de la IA cae en picada cuando deja el inglés.

La caída: Cuando se cambiaron del inglés a los idiomas indios, la precisión de las IAs cayó entre un 10% y un 25%. Es como si un estudiante que sacaba un 95 en inglés, de repente sacara un 70 en su propia lengua.
El problema de los idiomas Dravidianos: Los idiomas del sur de la India (como el tamil, telugu y kannada) fueron los más difíciles para las IAs. Incluso modelos que se dicen "multilingües" fallaron mucho más en estos idiomas que en los del norte (como el hindi o el marathi).
- Analogía: Es como si una máquina de traducción funcionara perfecto para el español y el francés, pero se atascara constantemente con el italiano, aunque todos sean idiomas romances.

3. El Truco del "Pensamiento en Voz Alta" (Chain-of-Thought)

Normalmente, cuando le pedimos a una IA que "piense paso a paso" antes de responder, suele funcionar mejor. Pero aquí ocurrió algo extraño: En los idiomas indios, pedirle que piense paso a paso la hizo peor.

Qué pasó: En bengalí y kannada, la precisión bajó drásticamente cuando se les pidió explicar su razonamiento.
La razón: Las IAs están "entrenadas" para razonar en inglés. Cuando se les obliga a pensar en otro idioma, su "cerebro" se confunde, genera pasos ilógicos y termina dando una respuesta incorrecta.
- Analogía: Imagina a un pianista que toca una obra maestra perfectamente con la mano derecha (inglés). Si le pides que toque la misma pieza con la mano izquierda (idioma local) y además le pidas que explique la música mientras toca, se le caen las notas y el ritmo se pierde.

4. ¿Son las imágenes la clave?

El estudio también quitó las imágenes para ver si las IAs dependían de ellas o del texto.

Resultado: Cuando se quitó la imagen, las IAs fallaron mucho más en inglés que en los idiomas indios.
La sorpresa: Esto sugiere que cuando las IAs no entienden bien el texto (en idiomas indios), ni siquiera intentan usar la imagen. Se quedan "ciegas" al dibujo porque no pueden descifrar la pregunta escrita.
- Analogía: Es como si te dieran un mapa y una pregunta en un idioma que no entiendes. En lugar de mirar el mapa para adivinar, te rindes porque no sabes leer la pregunta.

5. El "Fuga de Inglés"

El estudio descubrió que algunas IAs (como Llama-4) parecían responder en hindi o tamil, pero en realidad estaban pensando en inglés y solo traducían la respuesta final.

El problema: Si la IA piensa en inglés y luego traduce, puede acertar en preguntas de opción múltiple (A, B, C, D), pero si le pides que explique por qué la respuesta es correcta en hindi, probablemente inventará cosas o se trabará.
- Analogía: Es como un actor que memoriza un guion en inglés y lo recita en español sin entender lo que dice. Suena bien al principio, pero si el público le hace una pregunta espontánea en español, el actor se queda en blanco.

6. ¿Por qué importa esto?

La India tiene millones de niños que van a la escuela en sus idiomas locales (hindi, tamil, etc.). Si las escuelas empiezan a usar estas IAs como tutores:

Un niño que habla inglés tendrá un tutor brillante.
Un niño que habla tamil o kannada tendrá un tutor que comete muchos errores y no explica bien las cosas.

Conclusión simple:
Hoy en día, las IAs visuales son genios en inglés y estudiantes promedio en otros idiomas. No basta con entrenarlas con más textos en varios idiomas; necesitan aprender a razonar en esos idiomas. Mientras tanto, usarlas en escuelas de la India podría estar perjudicando a los estudiantes que más las necesitan.

El autor nos dice: "No confíes ciegamente en estas máquinas para enseñar matemáticas en otros idiomas hasta que aprendan a pensar en ellos, no solo a hablarlos".

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

1. El Experimento: La Misma Prueba, Diferente Idioma

2. Los Hallazgos Principales: La "Brecha de Idioma"

3. El Truco del "Pensamiento en Voz Alta" (Chain-of-Thought)

4. ¿Son las imágenes la clave?

5. El "Fuga de Inglés"

6. ¿Por qué importa esto?

Resumen Técnico: Auditoría de Razonamiento Visual Multilingüe para Idiomas Indios

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

1. El Experimento: La Misma Prueba, Diferente Idioma

2. Los Hallazgos Principales: La "Brecha de Idioma"

3. El Truco del "Pensamiento en Voz Alta" (Chain-of-Thought)

4. ¿Son las imágenes la clave?

5. El "Fuga de Inglés"

6. ¿Por qué importa esto?

Resumen Técnico: Auditoría de Razonamiento Visual Multilingüe para Idiomas Indios

1. El Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

GeoBlock: Inferring Block Granularity from Dependency Geometry in Diffusion Language Models

AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment

The Cognitive Divergence: AI Context Windows, Human Attention Decline, and the Delegation Feedback Loop

LogicDiff: Logic-Guided Denoising Improves Reasoning in Masked Diffusion Language Models

Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval