Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

O estudo demonstra que o viés de relato nos dados de treinamento de Modelos Visuais-Linguísticos impede o desenvolvimento de habilidades de raciocínio (como espacial, temporal, negação e contagem), mostrando que o aumento de escala não supera essa limitação e que a curadoria intencional de dados com informações tácitas é essencial para corrigi-la.

Amita Kamath, Jack Hessel, Khyathi Chandu, Jena D. Hwang, Kai-Wei Chang, Ranjay Krishna

Publicado 2026-02-27
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar uma criança a entender o mundo apenas mostrando-lhe fotos e lendo legendas escritas por pessoas comuns na internet. O problema é que as pessoas, ao descreverem fotos, tendem a ser "preguiçosas" ou, mais precisamente, pragmáticas. Elas dizem apenas o que é estritamente necessário para a conversa, ignorando detalhes óbvios ou que exigem um esforço mental extra.

Este artigo, escrito por pesquisadores de universidades e institutos de IA, diz que os modelos de Inteligência Artificial (chamados VLMs - Modelos Visão-Linguagem) estão falhando em tarefas de raciocínio (como contar objetos, entender posições no espaço ou negar coisas) não porque são "burros", mas porque o material de estudo deles tem um viés de relato.

Aqui está a explicação simplificada com analogias:

1. O Problema: A "Economia de Palavras" dos Humanos

Quando você vê uma foto de um gato e um cachorro, você provavelmente escreve: "Um gato e um cachorro brincando".
Você não escreve: "Um gato à esquerda de um cachorro, com o cachorro à direita do gato, e o gato não está voando".

Por quê? Porque, segundo as regras da comunicação humana (chamadas de Máximas de Grice), dar detalhes óbvios ou que não são o foco da conversa é considerado "excesso de informação" ou até confuso.

  • A Analogia: Imagine que você está descrevendo uma sala para um amigo pelo telefone. Você diz: "Tem uma mesa no meio". Você não diz: "Tem uma mesa no meio, e não tem uma mesa no canto, e a mesa não está flutuando".
  • O Resultado: Os modelos de IA aprendem com esses textos. Como quase ninguém escreve sobre "esquerda", "direita", "antes", "depois" ou "não", a IA nunca aprende a fazer esse tipo de raciocínio. Ela só vê o que é dito, não o que é omisso.

2. A Ilusão do "Tamanho" (Escalabilidade)

Muitas pessoas acreditam que, se jogarmos mais dados (bilhões de fotos) e usarmos modelos maiores, a IA vai "descobrir" sozinha como raciocinar. É como se pensássemos: "Se eu ler 1 milhão de livros, vou aprender a resolver equações complexas, mesmo que nenhum livro tenha matemática".

  • O que o artigo descobriu: Não funciona assim. Mesmo com dados em escala de "web" (bilhões de exemplos), se o padrão de escrita humana continuar omitindo esses detalhes, a IA continuará ruim nisso.
  • A Analogia: É como tentar ensinar alguém a cozinhar um prato específico apenas dando a ele 1 milhão de receitas que nunca mencionam o ingrediente principal. Não importa o quanto você aumente a quantidade de receitas, a pessoa nunca vai saber como fazer o prato se o ingrediente nunca for mencionado.

3. A Solução: O "Guia de Instruções"

Os pesquisadores testaram uma ideia simples: e se mudarmos as instruções para quem escreve as legendas?

  • O Experimento: Eles pediram para pessoas descreverem fotos com instruções específicas, como: "Descreva quantos objetos há" ou "Diga se o objeto está à esquerda ou à direita".
  • O Resultado: Quando as pessoas foram explicitamente instruídas a incluir esses detalhes, elas o fizeram! A quantidade de textos com "contagem", "negação" e "espaço" aumentou drasticamente.
  • A Analogia: É como um professor que diz a um aluno: "Hoje, em vez de apenas contar a história, você deve focar em descrever as cores das roupas de cada personagem". O aluno, que antes ignorava as cores, passa a incluí-las porque foi solicitado.

4. O Veredito Final

O artigo conclui que:

  1. A IA não é falha por natureza: Ela é falha porque os dados de treinamento refletem a forma "preguiçosa" e pragmática como os humanos falam.
  2. Mais dados não resolvem: Jogar mais do mesmo tipo de dado não cria novas habilidades de raciocínio.
  3. A cura é a curadoria intencional: Precisamos criar bancos de dados onde as instruções forçam a inclusão desses detalhes "invisíveis". Se ensinarmos a IA com exemplos que contêm negações, contagens e relações espaciais, ela aprende a raciocinar.

Em resumo: Para ter uma IA que raciocine bem, não basta ter mais livros; precisamos garantir que os livros tenham as páginas certas escritas de um jeito diferente. Precisamos ser intencionais na forma como coletamos os dados, em vez de apenas confiar no volume bruto.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →