Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de super-heróis da inteligência artificial (os chamados Modelos de Visão e Linguagem, ou VLMs). Eles são incríveis: conseguem olhar para uma foto de um problema de matemática ou de ciências e resolver a questão perfeitamente... se você fizer a pergunta em inglês.

Mas e se você pedir a esses mesmos heróis para resolver o mesmo problema, mas usando a língua de sua avó, ou a língua falada na sua cidade? Será que eles continuam tão inteligentes?

Este artigo é como um grande teste de realidade feito por um pesquisador chamado Swastik R. Ele decidiu colocar esses robôs à prova em 6 línguas indianas (Hindi, Tamil, Telugu, Bengali, Kannada e Marathi) para ver se eles realmente entendem o que estão fazendo ou se apenas "decoraram" as respostas em inglês.

Aqui está o resumo da história, explicado de forma simples:

1. O Cenário: A Escola e o Robô

Na Índia, milhões de crianças estudam em escolas onde o ensino é feito em línguas regionais, não em inglês. As empresas de tecnologia estão começando a usar esses robôs inteligentes para ajudar a ensinar. Mas o pesquisador queria saber: Se o robô não entende bem a língua local, ele vai ensinar errado?

Ele pegou 980 perguntas difíceis de matemática e ciências (que os robôs já sabiam resolver em inglês) e as traduziu para as 6 línguas indianas. Depois, ele pediu para 8 robôs diferentes resolverem.

2. O Grande Choque: A Queda de Performance

O resultado foi um balde de água fria.

Em inglês: Os robôs eram gênios.
Nas línguas indianas: A inteligência deles caiu drasticamente.

Imagine que um aluno tira 90 na prova de inglês, mas quando a prova é em sua língua materna, ele tira 65. Foi isso que aconteceu.

Os robôs mais "avançados" perderam cerca de 10 a 25 pontos de precisão.
Os robôs menores (de código aberto) perderam ainda mais, ficando quase confusos.

3. O "Fator Família": Línguas Irmãs vs. Estranhas

O estudo descobriu algo curioso sobre as línguas. As línguas indianas se dividem em duas grandes "famílias":

Indo-Arianas (como Hindi e Bengali): São mais parecidas com o inglês e com línguas europeias.
Dravidianas (como Tamil, Telugu e Kannada): São famílias de línguas completamente diferentes, com estruturas muito distintas.

A analogia: Pense que o robô é um turista que aprendeu a pedir comida em inglês. Se ele vai para um lugar onde falam uma língua parecida (Indo-Ariana), ele consegue se virar. Mas se ele vai para um lugar onde a língua é totalmente diferente (Dravidiana), ele se perde completamente.

Os robôs tiveram muito mais dificuldade com as línguas Dravidianas. Em alguns casos, a queda de inteligência foi quase o dobro comparado às línguas Indo-Arianas.

4. A Armadilha do "Pense Passo a Passo"

Existe uma técnica famosa onde você pede para o robô: "Pense passo a passo antes de responder". Em inglês, isso funciona muito bem e ajuda o robô a raciocinar.

Mas o estudo descobriu que, nas línguas indianas, essa técnica funcionou ao contrário!

Quando o pesquisador pediu para o robô pensar passo a passo em Bengali ou Kannada, a nota do robô caiu ainda mais.
Por que? É como se você pedisse para alguém que está aprendendo a cozinhar em uma língua estrangeira que ele escreva um livro inteiro sobre o processo. O robô começa a "alucinar", misturando palavras e perdendo o fio da meada. Ele não consegue manter uma lógica complexa em uma língua que não domina perfeitamente.

5. O Segredo Sujo: Eles estão pensando em inglês?

O pesquisador investigou se os robôs estavam apenas traduzindo a pergunta mentalmente para inglês, resolvendo lá, e depois traduzindo a resposta de volta.

Sim, muitos estavam! Um dos robôs (Llama-4-Maverick) usava inglês em 32% das vezes, mesmo quando a pergunta era em outra língua. Ele era "bilingue" na superfície, mas pensava em inglês no fundo.
Isso explica por que ele acertava as respostas de múltipla escolha (A, B, C, D), mas provavelmente falharia se você pedisse para ele explicar o raciocínio de forma natural e fluente.

6. O Que Isso Significa para o Futuro?

O estudo traz uma mensagem importante para quem quer usar inteligência artificial na educação:

Não basta treinar o robô com mais textos: Ter um robô que "fala" 23 línguas não significa que ele "pensa" bem nessas línguas. Ele pode falar, mas não raciocinar.
Cuidado com as escolas regionais: Se usarmos esses robôs hoje para ensinar matemática em Tamil ou Kannada, vamos estar prejudicando os alunos. Eles vão receber respostas erradas ou confusas.
A solução: Precisamos treinar esses robôs especificamente para raciocinar nessas línguas, não apenas para traduzir. E, por enquanto, pedir para eles "pensarem passo a passo" em línguas que eles não dominam pode ser uma péssima ideia.

Em resumo: A inteligência artificial é brilhante, mas ainda tem um "sotaque" muito forte. Ela é ótima em inglês, mas quando tentamos usá-la nas línguas locais da Índia, ela perde a cabeça. Antes de colocar esses robôs nas salas de aula, precisamos garantir que eles realmente entendam a língua dos alunos, e não apenas a traduzam.

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

1. O Cenário: A Escola e o Robô

2. O Grande Choque: A Queda de Performance

3. O "Fator Família": Línguas Irmãs vs. Estranhas

4. A Armadilha do "Pense Passo a Passo"

5. O Segredo Sujo: Eles estão pensando em inglês?

6. O Que Isso Significa para o Futuro?

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

A. Queda de Desempenho (Accuracy Drop)

B. Efeito da Família Linguística (Drávida vs. Indo-Ariana)

C. O Paradoxo do Chain-of-Thought (CoT)

D. Análise de "Vazamento" de Inglês e Consistência

E. Escala e Remoção de Imagem

5. Significado e Implicações

Do Multilingual VLMs Reason Equally? A Cross-Lingual Visual Reasoning Audit for Indian Languages

1. O Cenário: A Escola e o Robô

2. O Grande Choque: A Queda de Performance

3. O "Fator Família": Línguas Irmãs vs. Estranhas

4. A Armadilha do "Pense Passo a Passo"

5. O Segredo Sujo: Eles estão pensando em inglês?

6. O Que Isso Significa para o Futuro?

1. Problema e Motivação

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

A. Queda de Desempenho (Accuracy Drop)

B. Efeito da Família Linguística (Drávida vs. Indo-Ariana)

C. O Paradoxo do Chain-of-Thought (CoT)

D. Análise de "Vazamento" de Inglês e Consistência

E. Escala e Remoção de Imagem

5. Significado e Implicações

Mais como este

GeoBlock: Inferring Block Granularity from Dependency Geometry in Diffusion Language Models

AlpsBench: An LLM Personalization Benchmark for Real-Dialogue Memorization and Preference Alignment

The Cognitive Divergence: AI Context Windows, Human Attention Decline, and the Delegation Feedback Loop

LogicDiff: Logic-Guided Denoising Improves Reasoning in Masked Diffusion Language Models

Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval