ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

O artigo apresenta o ViRC, um framework que aprimora o raciocínio matemático multimodal em modelos de linguagem através de um mecanismo de "Reason Chunking" que divide o processo em Unidades de Raciocínio Crítico (CRUs), apoiado pelo novo conjunto de dados CRUX e uma estratégia de treinamento progressivo, resultando em um modelo ViRC-7B com desempenho superior em benchmarks matemáticos.

Lihong Wang, Liangqi Li, Weiwei Feng, Jiamin Wu, Changtao Miao, Tieru Wu, Rui Ma, Bo Zhang, Zhe Li

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando resolver um quebra-cabeça matemático complexo olhando para uma foto. A maioria dos "cérebros de computador" (Inteligências Artificiais) atuais olha para a foto inteira uma única vez no início e depois tenta escrever a solução inteira apenas com palavras, como se estivesse tentando adivinhar o resto do quebra-cabeça de olhos fechados. Isso frequentemente leva a erros, porque eles esquecem detalhes importantes da imagem.

Outros modelos tentam olhar para a foto a cada frase que escrevem, mas isso é como tentar ler um livro enquanto alguém fica piscando uma lanterna na sua cara a cada palavra: é cansativo, confuso e cheio de informações desnecessárias.

Aqui entra o VIRC, uma nova abordagem que ensina a IA a pensar como um ser humano especialista.

O Grande Segredo: "Chunking" (Agrupamento)

O artigo se baseia em uma regra da psicologia chamada Lei de Miller, que diz que nosso cérebro só consegue segurar cerca de 7 "pedaços" de informação de cada vez na memória de curto prazo. Para lidar com coisas grandes, nós agrupamos informações em blocos menores e significativos.

O VIRC aplica isso à matemática visual através de uma técnica chamada "Reason Chunking" (Fragmentação do Raciocínio).

A Analogia do Detetive e a Lupa

Pense na IA como um detetive tentando resolver um crime em uma cena complexa:

  1. O Modelo Antigo (CoT de Texto): O detetive olha para a cena do crime uma vez, tira uma foto mental e depois escreve um relatório inteiro sem nunca voltar a olhar para a cena. Ele perde detalhes cruciais.
  2. O Modelo Visual Exagerado (Visual CoT): O detetive olha para a cena a cada palavra que escreve no relatório. Ele fica tonto e confuso com tanta informação repetida.
  3. O VIRC (O Detetive Especialista): O detetive divide o caso em etapas lógicas claras (os "CRUs" ou Unidades de Raciocínio Crítico).
    • Etapa 1: Ele olha para a foto inteira e planeja: "Preciso medir o ângulo A".
    • Ação: Ele usa uma lupa (ferramenta de crop) para dar zoom apenas na parte da foto onde está o ângulo A.
    • Raciocínio: Ele escreve o que descobriu sobre o ângulo A.
    • Etapa 2: Agora ele precisa verificar o ângulo B. Ele não olha a foto inteira de novo. Ele usa a lupa novamente, mas foca em uma área diferente.
    • Correção: Se ele perceber que errou, ele usa uma ferramenta para recuar (ferramenta de scale) e olhar a foto inteira de novo para se reorientar, ou usa uma ferramenta para exibir a imagem anterior para comparar.

O Treinamento: Como eles ensinaram a IA?

Os pesquisadores não apenas deram a IA o problema; eles criaram um "curso de treinamento" de três níveis, inspirado em como humanos aprendem:

  1. Aula Teórica (Instructional SFT): Primeiro, eles ensinaram a IA a estrutura do raciocínio usando apenas texto. Ela aprendeu como dividir o problema em blocos, sem se distrair com imagens ainda. É como aprender a teoria do xadrez antes de jogar.
  2. Prática Real (Practice SFT): Depois, eles deixaram a IA jogar de verdade. Ela aprendeu a usar as lupas e ferramentas de zoom para pegar as informações visuais certas no momento certo, conectando o que vê com o que escreve.
  3. Mestre do Jogo (Strategic RL): Finalmente, eles usaram um sistema de recompensas. Se a IA usava a ferramenta errada (ex: dar zoom onde não precisava) ou perdia o foco, ela "perdia pontos". Se ela agia como um especialista humano, ganhava pontos. Isso refinou a estratégia dela para ser extremamente eficiente.

O Resultado: O Dataset CRUX

Para treinar isso, eles criaram um banco de dados gigante chamado CRUX. Imagine um livro de exercícios onde cada problema não tem apenas uma resposta, mas mostra o processo completo de pensamento:

  • Onde o detetive olhou.
  • Que ferramenta ele usou (zoom, corte, exibição).
  • Por que ele decidiu olhar ali.
  • E até onde ele errou e como corrigiu (como um humano faria).

Por que isso importa?

O modelo VIRC-7B (que é relativamente pequeno, comparável a um cérebro humano médio em termos de tamanho, mas muito inteligente) superou modelos muito maiores e mais famosos em testes de matemática visual.

Em resumo: O VIRC não tenta ser um "super-olho" que vê tudo de uma vez. Ele é um "super-pensador" que sabe quando olhar, o que olhar e como dividir o problema em pedaços gerenciáveis, exatamente como um humano faria. Ele transformou a IA de um "leitor de fotos" em um "resolutor de problemas visuais".