DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

O artigo propõe o DAG-MATH, um novo paradigma que modela o raciocínio passo a passo de Grandes Modelos de Linguagem como um processo estocástico em Grafos Direcionados Acíclicos para introduzir a métrica de "proximidade lógica", permitindo avaliar a fidelidade das derivações e revelar lacunas entre a precisão da resposta final e a consistência das regras, mesmo quando as métricas tradicionais de acerto são semelhantes.

Yuanhe Zhang, Ilja Kuzborskij, Jason D. Lee, Chenlei Leng, Fanghui Liu

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente a resolver um problema de matemática difícil, como um quebra-cabeça complexo.

Até agora, a gente perguntava para o robô: "Qual é a resposta?" e ele respondia: "42!". Se a resposta estivesse certa, a gente ficava feliz e dizia: "Parabéns, você é inteligente!". Mas o artigo DAG-MATH diz que isso é perigoso. O robô pode ter chutado a resposta, ou usado um truque de sorte, sem realmente entender como chegou lá.

Os autores criaram um novo método para ver se o robô realmente "pensou" ou se apenas "adivinhou". Vamos explicar como funciona usando uma analogia simples: A Montanha-Russa da Lógica.

1. O Problema: A Montanha-Russa Caótica

Quando um modelo de linguagem (como o ChatGPT ou o Gemini) resolve um problema, ele gera um texto chamado "Cadeia de Pensamento" (Chain-of-Thought). É como se ele falasse em voz alta enquanto pensa.

O problema é que esse texto é bagunçado. É como se o robô estivesse numa montanha-russa que vai para frente, para trás, sobe, desce e às vezes pula trilhos. Ele pode chegar ao topo (a resposta certa) por acaso, mesmo tendo passado por trilhos que não levavam a lugar nenhum ou que eram perigosos.

2. A Solução: O Mapa de Trilhos (DAG)

Os autores propõem transformar esse texto bagunçado em um Mapa de Trilhos chamado DAG (Grafo Acíclico Direcionado).

  • O que é um DAG? Imagine um mapa de metrô ou um diagrama de fluxo.
    • Cada Parada (Nó) é um passo do raciocínio (ex: "Se x é maior que 0...").
    • Cada Trilho (Aresta) é a lógica que conecta uma parada à outra (ex: "Porque o passo anterior disse que...").
    • Acíclico: Significa que você nunca pode voltar para trás num loop infinito. Você sempre avança em direção ao destino.

No novo formato DAG-MATH, o robô é obrigado a desenhar esse mapa enquanto pensa. Ele precisa dizer: "Estou na Parada A, puxei o trilho da Regra X, e cheguei na Parada B".

3. A Medida de Sucesso: "Proximidade Lógica"

Aqui está a mágica. Antes, só olhávamos se o robô chegou ao destino final (a resposta certa). Agora, os autores criaram uma nova métrica chamada Proximidade Lógica (Logical Closeness).

Imagine que o destino final é uma caixa de tesouro.

  • Resposta Certa (PASS@1): O robô chegou na caixa. Ótimo!
  • Proximidade Lógica (PRR): O robô chegou na caixa, mas todos os trilhos que ele percorreu estavam conectados e faziam sentido?

Se o robô pulou de um trilho para outro sem conexão, ou se ele inventou uma parada que ninguém usou depois, a "Proximidade Lógica" cai. É como se ele tivesse chegado no tesouro, mas tivesse deixado metade do mapa no chão ou usado um atalho mágico que não existe.

4. O Que Eles Descobriram?

Ao testar vários robôs (IA) com esse novo mapa, eles descobriram coisas interessantes:

  • A Ilusão da Inteligência: Muitos robôs acertam a resposta final (PASS@1 alto), mas quando olhamos o mapa, vemos que eles estão "perdidos" no meio do caminho. Eles usam muita "exploração" (tentar muitas coisas) para achar a resposta, em vez de usar lógica pura.
  • O "Ponto Doce": Os melhores raciocínios são como trilhos de trem diretos e eficientes. Eles têm poucos desvios e cada parada é necessária.
  • Dificuldade Real: Problemas difíceis exigem mapas maiores e mais complexos (mais paradas, mais trilhos cruzados). Se o robô não consegue manter o mapa organizado (lógico) enquanto o problema cresce, ele falha, mesmo que às vezes acerte por sorte.

Resumo em uma Frase

O DAG-MATH é como um novo "olho de águia" que não deixa o robô apenas mostrar a resposta final. Ele exige que o robô mostre o mapa completo da viagem, garantindo que cada passo do caminho tenha uma razão lógica e esteja conectado ao anterior, separando quem realmente entende matemática de quem apenas chuta a resposta certa.

É como mudar de perguntar "Você acertou o teste?" para "Mostre-me como você chegou a essa resposta, passo a passo, sem pular nenhuma linha".

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →