Composition-Grounded Data Synthesis for Visual Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha muito talentoso (o modelo de IA), mas ele só sabe cozinhar pratos muito simples, como "fazer um sanduíche" ou "fervor água". Agora, você quer que ele aprenda a fazer um banquete complexo, como um "torta de frango com legumes e molho especial", mas você não tem tempo nem dinheiro para contratar centenas de pessoas para escrever receitas detalhadas para ele.

O que você faz? Você pega três receitas simples que já tem na sua despensa (as "perguntas semente") e usa uma técnica mágica chamada COGS para criar milhares de novas receitas sozinho.

Aqui está como o COGS funciona, explicado de forma simples:

1. O Problema: O Chef Precisa de Praticar, mas Falta Ingredientes

Os computadores hoje são ótimos em "ver" imagens (como gráficos, tabelas e páginas da web), mas são péssimos em raciocinar sobre elas. Por exemplo, eles podem ler os números de um gráfico, mas têm dificuldade em somar, comparar e tirar conclusões complexas. O problema é que não existem muitos livros de receitas (dados) com perguntas difíceis e respostas detalhadas para treinar esses computadores.

2. A Solução: O "Kit de Desmontagem e Montagem" (COGS)

Os autores criaram um sistema chamado COGS (Síntese de Dados Baseada em Composição). Pense nele como um Kit de LEGO para perguntas.

Em vez de tentar criar uma pergunta complexa do zero, o COGS faz o seguinte:

Passo 1: Desmontar (Decompor): Ele pega uma pergunta difícil (ex: "Qual é a diferença entre o crescimento da energia e o dos serviços públicos?") e a quebra em pequenos blocos de LEGO (chamados "fatores").
- Bloco A: Ler o número de energia.
- Bloco B: Ler o número dos serviços.
- Bloco C: Subtrair um do outro.
Passo 2: Misturar e Recombinar: Agora que ele tem uma caixa cheia de blocos (fatores) de várias perguntas diferentes, ele pega novas imagens (outros gráficos ou páginas da web) e começa a montar novas perguntas misturando esses blocos de formas diferentes.
- Exemplo: Ele pega o "Bloco A" de um gráfico de vendas, o "Bloco B" de um gráfico de clima e o "Bloco C" de um gráfico de esportes. Juntos, eles formam uma pergunta totalmente nova e complexa que nunca existiu antes!
Passo 3: O Treinamento com Feedback (Recompensa): Aqui está a parte genial. Como o COGS sabe exatamente quais blocos foram usados para montar a pergunta, ele pode dar uma nota parcial para o computador.
- Se o computador acertou a soma, mas errou a leitura do número, ele ganha pontos parciais.
- Isso é como um professor que não diz apenas "Você errou", mas sim "Você leu o número certo, mas esqueceu de subtrair". Isso ensina o computador a pensar passo a passo, não apenas a chutar a resposta final.

3. O Resultado: Um Mestre do Raciocínio

Depois de treinar com milhares dessas perguntas "montadas" artificialmente, o computador (o chef) aprende a raciocinar muito melhor.

Ele não decora: Ele não apenas memoriza as respostas. Ele aprende a lógica de como resolver problemas.
Ele é flexível: Se você mostrar um gráfico novo que ele nunca viu, ele consegue usar os "blocos de LEGO" que aprendeu para resolver o problema.
Funciona em vários lugares: O teste mostrou que isso funciona não só em gráficos, mas também em páginas da web complexas (como sites de compras ou notícias).

A Analogia Final: A Caixa de Ferramentas

Imagine que você quer ensinar alguém a consertar carros.

O jeito antigo: Você dá a ele 100 carros quebrados diferentes e diz "conserte todos". Ele fica sobrecarregado e não aprende o princípio.
O jeito COGS: Você pega 3 carros quebrados, ensina a ele como usar a chave de fenda, como usar o alicate e como apertar o parafuso (os fatores). Depois, você dá a ele uma caixa cheia de ferramentas e 1.000 carros novos, dizendo: "Use essas ferramentas para montar e desmontar esses carros".

O aluno aprende a ferramenta (o raciocínio), não apenas o carro específico. Por isso, quando ele encontra um carro que nunca viu antes, ele sabe exatamente o que fazer.

Resumo: O COGS é uma forma inteligente de criar "exercícios de matemática" infinitos a partir de poucos exemplos, ensinando a IA a pensar passo a passo, em vez de apenas tentar adivinhar a resposta.

Each language version is independently generated for its own context, not a direct translation.

Título: COGS: Síntese de Dados Fundamentada em Composição para Raciocínio Visual

1. O Problema

Os Modelos de Linguagem Multimodal Grandes (MLLMs) pré-treinados demonstram desempenho robusto em diversas tarefas, mas ainda possuem capacidades limitadas de raciocínio avançado, especialmente em domínios onde a coleta de dados anotados por humanos é difícil e escassa.

Domínios Alvo: Imagens artificiais como gráficos (charts), documentos renderizados, tabelas e interfaces de usuário da web (webpages).
Desafio: Embora existam abundantes imagens desses tipos na web, os conjuntos de dados que contêm perguntas de raciocínio complexas e anotadas são raros.
Limitação Atual: Métodos existentes de síntese de dados muitas vezes dependem de heurísticas manuais ou geram apenas variações superficiais, falhando em capturar a estrutura lógica profunda necessária para o raciocínio composicional (multihop).

2. Metodologia: O Framework COGS

O COGS (COmposition-Grounded data Synthesis) é um framework eficiente em termos de dados projetado para equipar MLLMs com capacidades de raciocínio avançadas a partir de um pequeno conjunto de "perguntas semente" (seed questions). A ideia central é a composicionalidade: decompor perguntas complexas em fatores primitivos e recombiná-los para gerar novos dados.

O processo ocorre em três etapas principais:

A. Decomposição de Dados Semente (Seed Data Decomposition)

Dado um pequeno conjunto de perguntas anotadas no domínio alvo, o sistema utiliza um MLLM para decompor cada pergunta complexa em uma sequência de fatores de percepção e raciocínio.
Exemplo: Uma pergunta sobre a diferença percentual entre dois setores em um gráfico é decomposta em:
1. Percepção: Identificar o valor do setor A.
2. Percepção: Identificar o valor do setor B.
3. Cálculo: Calcular a diferença absoluta.
Esses fatores são agregados para formar um "Pool de Fatores" ( $F$ ), que serve como um vocabulário de operações lógicas e perceptivas.

B. Geração de Questões via Recomposição de Fatores (Question Generation via Factor Recomposition)

O framework seleciona um novo conjunto de imagens não rotuladas (ex: gráficos da web).
Amostras aleatórias de fatores do Pool ( $F$ ) são recombinadas para criar novas perguntas compostas.
O MLLM gera não apenas a pergunta final, mas também as subperguntas intermediárias e as respostas intermediárias correspondentes a cada fator.
Isso permite a criação de um grande volume de pares (imagem, pergunta, resposta) com anotações granulares de processo, sem necessidade de anotação humana adicional.

C. Ajuste Fino com Aprendizado por Reforço (RL Fine-tuning)

O modelo é ajustado utilizando Otimização de Política Relativa em Grupo (GRPO).
Recompensas de Processo: Diferente dos métodos tradicionais que recompensam apenas a resposta final, o COGS utiliza as anotações de fatores para definir recompensas de processo.
- O sistema verifica se as respostas intermediárias (subperguntas) estão corretas.
- São propostas três modalidades de recompensa:
  1. StandardRM: Apenas a resposta final.
  2. ProcessRM-sum: Soma da precisão da resposta final e das subperguntas.
  3. ProcessRM-max: Prioriza a resposta final, mas usa a precisão das subperguntas para moldar a recompensa de forma a preservar a ordem das políticas (teoricamente mais robusta a ruídos).

3. Principais Contribuições

Framework de Síntese Eficiente: Introduz uma abordagem para escalar dados de raciocínio visual a partir de um conjunto mínimo de sementes, explorando a estrutura fatorada das perguntas.
Recompensas de Processo Granulares: Demonstra que o uso de recompensas baseadas em fatores (subperguntas) durante o RL melhora significativamente a capacidade de raciocínio multihop, evitando o acúmulo de erros comum em métodos de decomposição apenas na inferência.
Transferibilidade e Generalização: Mostra que a mistura de fatores de diferentes conjuntos de dados (em vez de apenas misturar dados brutos) resulta em capacidades de raciocínio transferíveis, evitando o overfitting a um único domínio.
Aplicabilidade Multidomínio: Valida a eficácia do método tanto em gráficos (charts) quanto em interfaces web (GUIs), provando sua generalidade.

4. Resultados Experimentais

Os experimentos foram conduzidos principalmente nos benchmarks ChartQAPro (gráficos) e VisualWebBench (webpages).

Desempenho em Gráficos (ChartQAPro):
- O modelo ajustado com COGS (baseado em Qwen2.5-VL-7B) alcançou 52,02% de precisão geral, superando significativamente modelos proprietários (como GPT-4o-mini e Claude Haiku 3.5) e outros modelos de código aberto.
- Ganhos mais expressivos foram observados em perguntas pesadas em raciocínio e composicionais (ex: +7,62% em fatores de extrapolação).
- A estratégia de mistura de fatores (factor-level mixture) entre diferentes conjuntos de dados superou a mistura de dados brutos, indicando melhor transferência de habilidades.
Desempenho em Webpages (VisualWebBench):
- O COGS alcançou 88,04% de precisão, superando todos os modelos de código aberto e especialistas em GUI, demonstrando que a abordagem não se limita a gráficos.
Análise de Ablação:
- Tamanho da Semente: O desempenho melhora conforme o tamanho do conjunto de sementes aumenta, mas mesmo com 33% dos dados disponíveis, o ganho é substancial.
- Recompensas: O uso de ProcessRM-max (recompensa baseada no máximo) mostrou-se superior ao sum e ao standard, confirmando a teoria de que preserva a ordem das políticas em meio a sinais de recompensa ruidosos.
- Decomposição vs. COGS: A decomposição apenas no tempo de inferência (sem treinamento com recompensas de processo) teve desempenho inferior devido ao acúmulo de erros, validando a necessidade do treinamento com RL.

5. Significância e Impacto

O trabalho COGS oferece uma solução prática para o gargalo de dados anotados em tarefas de raciocínio visual complexo. Ao transformar a síntese de dados em um processo de recombinação composicional fundamentada, o método permite:

Escalabilidade: Gerar dados de treinamento diversificados a partir de poucas sementes e imagens não rotuladas.
Robustez: Melhorar a capacidade dos modelos de seguir cadeias de raciocínio lógicas, em vez de apenas adivinhar respostas finais.
Aplicabilidade Prática: Facilita o desenvolvimento de agentes de IA capazes de interpretar, editar e agir em ambientes digitais complexos (como editar documentos ou navegar na web), onde o raciocínio passo a passo é crítico.

Em resumo, o COGS representa um avanço significativo na forma como os MLLMs aprendem a raciocinar visualmente, movendo-se de uma dependência de grandes volumes de dados anotados para uma abordagem baseada em estrutura lógica e síntese inteligente.

Composition-Grounded Data Synthesis for Visual Reasoning

1. O Problema: O Chef Precisa de Praticar, mas Falta Ingredientes

2. A Solução: O "Kit de Desmontagem e Montagem" (COGS)

3. O Resultado: Um Mestre do Raciocínio

A Analogia Final: A Caixa de Ferramentas

Título: COGS: Síntese de Dados Fundamentada em Composição para Raciocínio Visual

1. O Problema

2. Metodologia: O Framework COGS

3. Principais Contribuições

4. Resultados Experimentais

5. Significância e Impacto

Mais como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers