Composition-Grounded Data Synthesis for Visual Reasoning

O artigo apresenta o COGS, um framework de síntese de dados que aprimora a capacidade de raciocínio de modelos de linguagem multimídia em domínios com poucas anotações, como gráficos e documentos, decompondo perguntas em fatores primitivos para gerar conjuntos de dados sintéticos que permitem treinamento com recompensas de processo em nível de fator.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong, Zhuoran Yu, Pengyuan Li, Dhiraj Joshi, Rogerio Feris, Zexue He

Publicado 2026-03-05
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha muito talentoso (o modelo de IA), mas ele só sabe cozinhar pratos muito simples, como "fazer um sanduíche" ou "fervor água". Agora, você quer que ele aprenda a fazer um banquete complexo, como um "torta de frango com legumes e molho especial", mas você não tem tempo nem dinheiro para contratar centenas de pessoas para escrever receitas detalhadas para ele.

O que você faz? Você pega três receitas simples que já tem na sua despensa (as "perguntas semente") e usa uma técnica mágica chamada COGS para criar milhares de novas receitas sozinho.

Aqui está como o COGS funciona, explicado de forma simples:

1. O Problema: O Chef Precisa de Praticar, mas Falta Ingredientes

Os computadores hoje são ótimos em "ver" imagens (como gráficos, tabelas e páginas da web), mas são péssimos em raciocinar sobre elas. Por exemplo, eles podem ler os números de um gráfico, mas têm dificuldade em somar, comparar e tirar conclusões complexas. O problema é que não existem muitos livros de receitas (dados) com perguntas difíceis e respostas detalhadas para treinar esses computadores.

2. A Solução: O "Kit de Desmontagem e Montagem" (COGS)

Os autores criaram um sistema chamado COGS (Síntese de Dados Baseada em Composição). Pense nele como um Kit de LEGO para perguntas.

Em vez de tentar criar uma pergunta complexa do zero, o COGS faz o seguinte:

  • Passo 1: Desmontar (Decompor): Ele pega uma pergunta difícil (ex: "Qual é a diferença entre o crescimento da energia e o dos serviços públicos?") e a quebra em pequenos blocos de LEGO (chamados "fatores").
    • Bloco A: Ler o número de energia.
    • Bloco B: Ler o número dos serviços.
    • Bloco C: Subtrair um do outro.
  • Passo 2: Misturar e Recombinar: Agora que ele tem uma caixa cheia de blocos (fatores) de várias perguntas diferentes, ele pega novas imagens (outros gráficos ou páginas da web) e começa a montar novas perguntas misturando esses blocos de formas diferentes.
    • Exemplo: Ele pega o "Bloco A" de um gráfico de vendas, o "Bloco B" de um gráfico de clima e o "Bloco C" de um gráfico de esportes. Juntos, eles formam uma pergunta totalmente nova e complexa que nunca existiu antes!
  • Passo 3: O Treinamento com Feedback (Recompensa): Aqui está a parte genial. Como o COGS sabe exatamente quais blocos foram usados para montar a pergunta, ele pode dar uma nota parcial para o computador.
    • Se o computador acertou a soma, mas errou a leitura do número, ele ganha pontos parciais.
    • Isso é como um professor que não diz apenas "Você errou", mas sim "Você leu o número certo, mas esqueceu de subtrair". Isso ensina o computador a pensar passo a passo, não apenas a chutar a resposta final.

3. O Resultado: Um Mestre do Raciocínio

Depois de treinar com milhares dessas perguntas "montadas" artificialmente, o computador (o chef) aprende a raciocinar muito melhor.

  • Ele não decora: Ele não apenas memoriza as respostas. Ele aprende a lógica de como resolver problemas.
  • Ele é flexível: Se você mostrar um gráfico novo que ele nunca viu, ele consegue usar os "blocos de LEGO" que aprendeu para resolver o problema.
  • Funciona em vários lugares: O teste mostrou que isso funciona não só em gráficos, mas também em páginas da web complexas (como sites de compras ou notícias).

A Analogia Final: A Caixa de Ferramentas

Imagine que você quer ensinar alguém a consertar carros.

  • O jeito antigo: Você dá a ele 100 carros quebrados diferentes e diz "conserte todos". Ele fica sobrecarregado e não aprende o princípio.
  • O jeito COGS: Você pega 3 carros quebrados, ensina a ele como usar a chave de fenda, como usar o alicate e como apertar o parafuso (os fatores). Depois, você dá a ele uma caixa cheia de ferramentas e 1.000 carros novos, dizendo: "Use essas ferramentas para montar e desmontar esses carros".

O aluno aprende a ferramenta (o raciocínio), não apenas o carro específico. Por isso, quando ele encontra um carro que nunca viu antes, ele sabe exatamente o que fazer.

Resumo: O COGS é uma forma inteligente de criar "exercícios de matemática" infinitos a partir de poucos exemplos, ensinando a IA a pensar passo a passo, em vez de apenas tentar adivinhar a resposta.