Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Os autores apresentam um framework escalável que sintetiza mais de 1 milhão de problemas visuais centrais com cadeias de raciocínio, resultando em um modelo Qwen2.5-VL-7B que supera bases de dados abertas e iguala modelos fechados em benchmarks visuais, enquanto demonstra transferência positiva para tarefas de raciocínio textual, auditivo e corporificado.

David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi

Publicado 2026-02-18
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um professor muito inteligente, mas que, quando vê uma foto, ele apenas descreve o que vê de forma simples: "Tem um cachorro e uma bola". Ele não consegue pensar profundamente sobre por que o cachorro está olhando para a bola, ou se a bola está prestes a rolar para longe.

Os pesquisadores deste artigo (da NVIDIA e outras universidades) queriam ensinar esses "olhos digitais" (modelos de Inteligência Artificial) a pensar como humanos, não apenas a olhar. Eles criaram um método novo para gerar milhões de problemas visuais e treinar esses modelos.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: "Só olhar não basta"

Antes, os cientistas tentavam criar problemas para treinar a IA usando apenas descrições de texto das imagens (como se alguém lesse um roteiro para a IA).

  • A analogia: É como tentar ensinar alguém a dirigir apenas lendo um livro de regras, sem nunca ver a rua. A IA aprendia a responder, mas ficava "preguiçosa" e repetitiva. Ela via as mesmas coisas (um cachorro, um carro) e fazia as mesmas perguntas simples, sem nunca aprender a raciocinar em cadeia.

2. A Solução: "O Treinamento em Duas Etapas"

Os autores criaram um sistema chamado "Long Grounded Thoughts" (Pensamentos Fundamentados Longos). Eles dividiram o processo em duas fases, como se estivessem construindo um ginásio de musculação para o cérebro da IA:

Fase 1: A Base (O "Ginásio de Agachamento")

Eles não usaram apenas descrições de texto. Eles usaram metadados (informações técnicas sobre onde os objetos estão na foto, como coordenadas de um mapa).

  • A analogia: Em vez de apenas dizer "tem uma bola", o sistema diz: "Tem uma bola na posição X, perto de um cachorro na posição Y". Isso força a IA a criar milhões de perguntas diferentes e únicas, evitando que ela fique entediada e repetitiva. É como ter um professor que aponta para cada detalhe específico da foto e pergunta coisas diferentes sobre ele.

Fase 2: O Desafio (O "Quebra-Cabeça Complexo")

Aqui está a mágica. Eles pegaram várias perguntas simples da Fase 1 e as juntaram para criar um problema gigante e difícil.

  • A analogia: Imagine que a IA aprendeu a responder: "Qual a cor do cachorro?" e "Onde está a bola?". Na Fase 2, eles criam uma pergunta nova: "Se o cachorro pular na bola, qual será a cor do objeto que a bola tocará primeiro?".
  • Isso obriga a IA a desmontar o problema em partes menores (submetas), verificar se está certo, e até voltar atrás se errar (como quando você diz: "Espera, eu pensei que era azul, mas olhando de novo, é cinza"). Isso se chama "raciocínio em cadeia".

3. O Resultado: Um "Atleta" Versátil

Eles treinaram um modelo de 7 bilhões de parâmetros (um cérebro digital de tamanho médio) com mais de 1 milhão desses problemas complexos.

  • O que aconteceu? O modelo ficou muito mais inteligente em tarefas visuais. Ele superou outros modelos de código aberto e chegou perto dos modelos mais caros e fechados do mercado.
  • A surpresa (O Efeito "Bola de Neve"): O mais incrível é que, mesmo treinado apenas com fotos, esse modelo melhorou em outras áreas que ele nunca viu!
    • Texto: Ele ficou melhor em responder perguntas de texto puro (como um teste de conhecimento geral).
    • Áudio: Ele ficou melhor em entender sons e músicas.
    • Corpo: Ele ficou melhor em responder perguntas sobre robôs e ambientes físicos.
  • A analogia: É como se você treinasse um jogador de basquete apenas jogando basquete, e de repente ele se tornasse um ótimo jogador de xadrez e um músico talentoso. Por quê? Porque o treino ensinou o processo de pensar (analisar, duvidar, corrigir), e não apenas a memorizar regras de basquete.

4. A Lição Principal: "Ensine antes de treinar"

O estudo descobriu algo crucial sobre como treinar IAs:

  • Você não pode simplesmente jogar a IA em um treino de "Reforço" (onde ela tenta e erra sozinha) e esperar que ela aprenda a pensar. Ela vai ficar confusa.
  • A analogia: É como tentar ensinar um aluno a resolver equações complexas jogando-o em uma sala de prova sem antes dar a ele as lições de casa. O aluno vai falhar.
  • O segredo: Primeiro, você precisa dar a lição de casa (o "SFT" - ajuste fino com dados de alta qualidade) onde o aluno vê como pensar passo a passo. Só depois disso, o treino de reforço (onde ele pratica sozinho) funciona de verdade.

Resumo Final

Os autores criaram uma "fábrica de problemas visuais" que gera milhões de desafios complexos. Eles ensinaram a IA a não apenas olhar, mas a raciocinar, a duvidar e a corrigir a si mesma. O resultado é um modelo mais inteligente, que aprendeu a pensar de forma tão profunda que essa habilidade se espalhou para outras áreas, como áudio e texto, provando que um bom treino de raciocínio visual é a chave para uma inteligência artificial mais completa.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →