On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô superinteligente a jogar um jogo de labirinto. O objetivo é simples: pegar um "tesouro" sem cair em buracos. O problema é que, quando você muda um pouco as regras do jogo (como fazer o labirinto ficar muito maior), o robô costuma travar e não sabe mais o que fazer.

Este artigo é como um laboratório de testes para entender por que isso acontece e como consertar. Os pesquisadores criaram um cenário controlado para ver como os modelos de IA (os "cérebros" digitais) aprendem a raciocinar quando as coisas mudam.

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Problema: O Robô que Decora, mas não Entende

Imagine que você ensina um aluno a resolver um quebra-cabeça de 6x6 peças. Ele decora o caminho e ganha. Mas, quando você dá um quebra-cabeça de 10x10, ele entra em pânico.

O que o artigo diz: A maioria das IAs atuais não está realmente "pensando" ou aprendendo a lógica do jogo. Elas estão apenas reconhecendo padrões que viram durante o treino. Se o teste for diferente do treino (o que chamam de "Out-of-Distribution" ou OOD), elas falham miseravelmente.

2. A Solução Mágica: A "Folha de Rascunho" Dupla

Os pesquisadores testaram várias formas de ensinar o robô a pensar passo a passo (o que chamam de Chain-of-Thought ou "Cadeia de Pensamento").

A analogia: Imagine que você está resolvendo um problema de matemática.
- Opção A: Você só escreve a resposta final. (O robô falha).
- Opção B: Você escreve apenas uma explicação em texto: "Primeiro vou para a direita, porque..." (Melhora um pouco, mas ainda falha em mapas grandes).
- Opção C (A Vencedora): Você faz duas coisas ao mesmo tempo:
  1. Fala o que vai fazer: "Vou subir porque há um buraco à direita."
  2. Desenha o resultado: Você desenha um pequeno mapa (uma grade) mostrando exatamente como o cenário fica depois desse movimento.

A descoberta principal: O robô só consegue generalizar (resolver labirintos novos e maiores) quando ele usa essa combinação: uma explicação em linguagem natural mais uma representação visual estruturada (como uma tabela ou grade de texto) do que aconteceu no próximo passo. É como se o robô precisasse "falar" e "desenhar" ao mesmo tempo para não se perder.

3. O Paradoxo: Texto é Melhor que Imagem

Você poderia pensar: "Mas o robô é multimodal, ele vê imagens! Deve ser melhor usar fotos do labirinto."

A surpresa: Não foi. Os modelos que usavam apenas texto (descrevendo o mapa com letras e símbolos) funcionaram muito melhor do que os que usavam imagens reais.
Por que? Pense em tentar ler um mapa desenhado à mão com caneta torta versus ler um mapa impresso em uma grade perfeita. O texto estruturado (a grade) é mais limpo, mais preciso e o robô consegue processar a lógica sem se confundir com "ruído" visual. Até mesmo um método avançado que tentava "pensar em imagens" (chamado Mirage) perdeu para o nosso robô que usava apenas texto e lógica.

4. O Que Isso Significa para o Futuro?

O estudo mostra que, embora as IAs estejam ficando muito boas em tarefas que elas já viram antes, elas ainda têm muita dificuldade em aprender a lógica real para aplicar em situações novas.

A lição: Não basta apenas dar mais dados ou pedir para a IA "pensar mais". A forma como apresentamos a informação (o formato dos dados) é crucial.
O futuro: Se quisermos criar IAs que realmente raciocinem e se adaptem a novos mundos (como um carro autônomo em uma cidade nunca vista antes), precisamos ensinar elas a estruturar o pensamento de forma híbrida: misturando a explicação lógica com uma representação clara e organizada do estado atual do problema.

Em resumo: O artigo nos ensina que, para um robô aprender a navegar no desconhecido, não adianta apenas mostrar fotos bonitas. É preciso ensiná-lo a falar o que está fazendo e desenhar o caminho ao mesmo tempo, usando uma linguagem que ele entenda perfeitamente (texto estruturado).

Each language version is independently generated for its own context, not a direct translation.

1. Problema

O artigo aborda a lacuna na compreensão da generalização fora da distribuição (OOD) em modelos de linguagem grandes (LLMs) e modelos de linguagem-vídeo grandes (LVLMs) que utilizam raciocínio do tipo Chain-of-Thought (CoT). Embora o CoT tenha demonstrado melhorar o desempenho em tarefas complexas, não está claro se esses modelos aprendem algoritmos genuínos ou apenas padrões estatísticos dos dados de treinamento.

O problema central é que, quando submetidos a mudanças na distribuição dos dados (como mapas maiores ou distâncias diferentes entre início e fim), o desempenho desses modelos de raciocínio colapsa drasticamente. O trabalho busca investigar se é possível melhorar essa generalização OOD através da manipulação cuidadosa dos formatos de entrada (texto vs. imagem) e das estratégias de raciocínio (formato das traces de CoT).

2. Metodologia

Os autores propõem um ambiente de avaliação controlado baseado na tarefa de planejamento visual FROZENLAKE (um labirinto onde o agente deve navegar de um ponto de partida a um tesouro, evitando buracos).

Tarefa: Navegação em uma grade (grid) com obstáculos. A saída é uma sequência de movimentos (Cima, Baixo, Esquerda, Direita).
Representações de Entrada: O mapa pode ser fornecido de quatro formas:
1. Imagem.
2. Descrição textual não estruturada.
3. Tabela (formato Markdown).
4. Grade ASCII (compacta, baseada em texto).
Raciocínio (CoT): Os modelos podem gerar traces de raciocínio em diferentes formatos:
- Apenas descrição (narrativa).
- Apenas tabela ou grade (visualização do estado após o movimento).
- Combinação: Descrição + Tabela/Grade (primeiro a narrativa do raciocínio, depois a representação visual do novo estado).
Configuração Experimental:
- Modelo Base: Qwen2.5-VL-7B-Instruct.
- Treinamento: Fine-tuning supervisionado (SFT) com 10 épocas.
- Dados: Treinamento em mapas de 3x3 a 6x6.
- Avaliação OOD: Teste em mapas maiores (7x7 a 10x10) e em mapas onde a distância entre início e objetivo ( $d_\infty$ ) excede o visto no treinamento.
Métricas: Precisão na execução correta da sequência de movimentos sem cair em buracos e chegar ao tesouro.

3. Principais Contribuições

Framework de Avaliação Rigoroso: Criação de um benchmark controlado que permite isolar o efeito de representações de entrada e formatos de CoT na generalização OOD, algo difícil em benchmarks padrão.
Descoberta sobre Formatos de CoT: Identificação de que a combinação de formatos textuais estruturados (Grade/Tabela) com descrições narrativas é crucial para a generalização OOD.
Análise de Limitações de Raciocínio: Evidência de que, na maioria dos casos, os modelos falham em generalizar algoritmicamente, dependendo de correspondência de padrões triviais, a menos que o formato de dados seja otimizado.
Comparação com Métodos Avançados: Demonstração de que modelos puramente baseados em texto com CoT bem formatado superam métodos multimodais complexos recentes (como o Mirage, que usa raciocínio em espaço latente contínuo) nesta tarefa específica.

4. Resultados Chave

Desempenho OOD Limitado: A maioria dos modelos, mesmo com CoT, falha em generalizar para mapas maiores (acima de 6x6) ou distâncias maiores, caindo para precisão próxima de 0% em cenários OOD rigorosos ( $d_\infty \ge 6$ ).
O Poder do Formato Híbrido: O modelo que utiliza entrada em formato de Grade (Grid) combinada com CoT híbrido (Grid + Descrição) obteve os melhores resultados.
- Alcançou 41% de precisão média em mapas OOD com $d_\infty \ge 6$ .
- Mantém precisão não trivial (acima de 20%) até mapas de 10x10, enquanto outros modelos caem drasticamente.
Texto vs. Imagem: Modelos puramente baseados em texto (Grid/Descrição) superaram consistentemente os modelos que utilizam imagens como entrada, inclusive os que usam raciocínio em espaço latente contínuo (Mirage).
Superioridade sobre Baselines: O modelo proposto (SFT com Grid + Descr. CoT) atingiu 91% de precisão em dados in-distribution (ID), superando métodos especializados como VPRL (que usa RL) e o Mirage, demonstrando que a escolha do formato de dados é mais impactante que a complexidade do modelo ou o uso de RL.
Análise de Comprimento de Solução: A generalização para soluções mais longas também é difícil, mas o formato Grid + Descr. manteve desempenho até o comprimento de solução 13, enquanto outros falhavam após 9.

5. Significado e Conclusão

O trabalho conclui que a generalização OOD de modelos de raciocínio ainda é severamente limitada e frequentemente baseada em reconhecimento de padrões em vez de aprendizado algorítmico genuíno. No entanto, o estudo revela que a forma como os dados e o raciocínio são apresentados (o formato) é um fator determinante.

Implicação Prática: Para tarefas de planejamento visual, não é necessário necessariamente usar representações visuais complexas ou raciocínio em espaço contínuo; uma representação textual estruturada e compacta (Grade) combinada com explicação natural (Descrição) é mais eficaz para a generalização.
Futuro: O benchmark proposto serve como uma ferramenta essencial para medir o progresso real de futuros LLMs em aprender algoritmos e generalizar, sugerindo que a pesquisa deve focar na interação entre formatos de dados e arquiteturas de raciocínio para superar as limitações atuais de distribuição.

Em suma, o artigo demonstra que, embora os modelos de IA ainda lutem com a generalização algorítmica pura, a engenharia cuidadosa do formato de entrada e do processo de raciocínio pode extrair capacidades de generalização significativas, superando até mesmo abordagens multimodais de ponta atuais.

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

1. O Problema: O Robô que Decora, mas não Entende

2. A Solução Mágica: A "Folha de Rascunho" Dupla

3. O Paradoxo: Texto é Melhor que Imagem

4. O Que Isso Significa para o Futuro?

1. Problema

2. Metodologia

3. Principais Contribuições

4. Resultados Chave

5. Significado e Conclusão

Mais como este

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank