CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

O artigo apresenta o CogFlow, um novo framework de três estágios inspirado na cognição humana que supera as limitações atuais na resolução de problemas matemáticos visuais ao integrar explicitamente a percepção, a internalização de conhecimento e o raciocínio, utilizando recompensas visuais sinérgicas, um modelo de recompensa para internalização e otimização de política com portão visual, apoiado pelo novo conjunto de dados MathCog.

Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan

Publicado 2026-02-25
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando resolver um problema de matemática complexo olhando para um desenho geométrico. Para um computador (especificamente uma Inteligência Artificial), isso é como tentar montar um quebra-cabeça enquanto está de cabeça para baixo e com os olhos vendados.

O artigo "COGFLOW" apresenta uma nova maneira de ensinar essas IAs a "pensar" melhor, inspirada em como o cérebro humano funciona. Vamos usar uma analogia simples para entender como isso funciona:

A Analogia do "Arquiteto, o Tradutor e o Engenheiro"

Antes do COGFLOW, as IAs tentavam fazer tudo de uma vez só ou em duas etapas desconectadas. O resultado? Elas viam o desenho, mas depois "alucinavam" (inventavam fatos) ou esqueciam o que viram enquanto tentavam resolver a matemática. Era como um arquiteto que desenha uma casa bonita, mas o engenheiro que constrói usa materiais diferentes e a casa desaba.

O COGFLOW divide o processo em três etapas claras, como se fosse uma equipe de três especialistas trabalhando em sequência:

1. O Olho Atento (Percepção)

  • O que é: É a fase de apenas "olhar" para o desenho.
  • O problema antigo: A IA via o desenho, mas às vezes confundia um círculo com um quadrado ou não sabia onde estava o centro exato.
  • A solução do COGFLOW: Eles criaram um sistema de "recompensas duplas" (chamado Synergistic Visual Rewards).
    • Imagine que a IA é um aluno fazendo um exercício de geometria. O professor (o sistema de recompensa) não só verifica se a resposta final está certa, mas mede com uma régua se os pontos desenhados estão no lugar certo (precisão matemática) e se o desenho geral parece com o original (estilo e layout).
    • Isso força a IA a ser extremamente precisa ao "ver" os pontos, linhas e círculos antes de tentar qualquer cálculo.

2. O Tradutor Sábio (Internalização de Conhecimento)

  • O que é: Esta é a parte mais nova e genial do COGFLOW. É o momento em que a IA para de apenas "ver" e começa a "entender" o que vê.
  • A analogia: Imagine que você vê um triângulo.
    • Sem internalização: A IA diz "Vejo um triângulo".
    • Com internalização: A IA pensa: "Ah, vejo um triângulo, e como um dos lados é o diâmetro de um círculo, eu sei que o ângulo oposto é obrigatoriamente 90 graus". Ela transforma a imagem bruta em uma regra lógica.
  • O problema antigo: Muitas IAs viam o desenho, mas no momento de raciocinar, esqueciam essa regra ou inventavam uma nova que não existia no desenho.
  • A solução: O COGFLOW usa um "Treinador de Realidade" (Knowledge Internalization Reward). Ele pune a IA se ela tentar usar uma regra matemática que não foi "internalizada" (confirmada) pelo que ela viu no desenho. É como se o professor dissesse: "Você não pode usar essa fórmula porque não viu o ângulo reto no desenho!". Isso evita que a IA "alucine" fatos.

3. O Engenheiro Preciso (Raciocínio)

  • O que é: A fase final de calcular a resposta.
  • O problema antigo: Mesmo com uma boa visão, a IA podia se perder em um raciocínio longo e confuso, tomando atalhos que pareciam lógicos, mas estavam errados.
  • A solução: Eles criaram um "Portão Visual" (Visual Gate).
    • Imagine que a IA tenta resolver o problema 3 vezes. O "Portão" olha para a primeira tentativa de "ver" o desenho. Se a visão estiver ruim (pontos errados), o portão bloqueia aquela tentativa e pede para a IA tentar de novo, até que a visão esteja perfeita.
    • Só quando a visão está aprovada, a IA pode prosseguir para o raciocínio matemático. Isso garante que o engenheiro (raciocínio) nunca trabalhe com materiais defeituosos (visão errada).

O Resultado: O "Super-Atleta" da Matemática Visual

Além de criar esse método, os autores criaram um novo "livro de exercícios" chamado MATHCOG, com mais de 120.000 problemas onde cada passo (o que foi visto, o que foi entendido e o que foi calculado) está anotado com perfeição.

Por que isso importa?
Testes mostraram que o COGFLOW (mesmo sendo um modelo menor) consegue resolver problemas visuais de matemática melhor do que gigantes da tecnologia (como o GPT-4o ou Claude), que são muito maiores e mais caros.

Em resumo:
O COGFLOW ensina a IA a não ter pressa. Ele diz: "Primeiro, veja com precisão cirúrgica. Depois, traduza o que você viu em regras lógicas sólidas. Só então, e apenas então, resolva o problema." É como transformar uma criança que chuta as respostas em um matemático que segue o método científico.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →