DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

Este trabajo propone un marco basado en grafos acíclicos dirigidos (DAG) y una métrica de "cercanía lógica" para evaluar la fidelidad del razonamiento en modelos de lenguaje, demostrando que las métricas tradicionales de precisión de respuesta final no capturan adecuadamente la consistencia de las derivaciones en problemas matemáticos.

Yuanhe Zhang, Ilja Kuzborskij, Jason D. Lee, Chenlei Leng, Fanghui Liu

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los Grandes Modelos de Lenguaje (como los que usan en ChatGPT o Gemini) son como genios muy rápidos pero un poco distraídos. Cuando les pides que resuelvan un problema de matemáticas, a menudo dan la respuesta correcta, pero... ¿cómo llegaron ahí? ¿Realmente entendieron la lógica o simplemente adivinaron bien?

Este paper, llamado DAG-MATH, propone una forma nueva y brillante de vigilar el "trabajo en casa" de estos genios para ver si realmente están pensando o solo están adivinando.

Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Viajero Adivinador"

Imagina que le pides a un viajero que vaya de tu casa a un castillo lejano.

  • El método antiguo (Chain-of-Thought): El viajero te dice: "Primero caminé, luego salté un río, y ¡llegué al castillo!". Si el castillo es el correcto, le das una medalla de oro. Pero, ¿y si el viajero saltó el río en la dirección equivocada y luego, por suerte, chocó contra un árbol que lo empujó al camino correcto? Le diste la medalla, pero su viaje fue un caos.
  • El problema: Las métricas actuales solo miran si el viajero llegó al castillo (la respuesta correcta). No miran si el camino fue lógico.

2. La Solución: El "Mapa de Dependencias" (DAG)

Los autores dicen: "¡Espera! No basta con ver el destino. Necesitamos ver el mapa completo del viaje".

Proponen convertir el razonamiento del modelo en un Grafo Acíclico Dirigido (DAG).

  • La analogía: Imagina que cada paso del razonamiento es una estación de tren.
    • Para salir de una estación (hacer un paso), debes haber pasado por las estaciones anteriores (los "padres" o premisas).
    • No puedes saltarte estaciones ni crear bucles infinitos (no puedes decir "llegué porque llegué").
    • El mapa debe ser un árbol limpio donde cada rama conecta lógicamente con la siguiente.

Si el modelo salta una estación clave o conecta dos cosas que no tienen relación, el mapa se rompe. Eso es un "paso lógico roto".

3. La Nueva Medida: "Cercanía Lógica"

En lugar de solo preguntar "¿Llegaste al castillo?", ahora preguntamos: "¿Tu mapa de trenes está completo y conectado?".

  • Razonamiento Perfecto: El modelo construye un mapa donde cada estación está conectada a la anterior, sin saltos, y termina exactamente en el castillo correcto. ¡Es un viaje limpio!
  • Razonamiento "Sucio" (pero con respuesta correcta): El modelo llega al castillo, pero su mapa tiene estaciones fantasma, saltos mágicos o caminos que no llevan a ningún lado. Llegó, pero fue suerte o búsqueda a ciegas, no lógica pura.

El paper introduce una métrica llamada PRR (Tasa de Razonamiento Perfecto). Es como un examen de conducir: no basta con llegar a la meta; tienes que respetar todos los semáforos y señales (la lógica) en el camino.

4. Lo que Descubrieron (La Sorpresa)

Cuando probaron esto con modelos modernos (como Gemini o GPT), descubrieron algo fascinante:

  • La ilusión de la inteligencia: Muchos modelos tienen una tasa de acierto muy alta (muchas medallas de oro), pero su Tasa de Razonamiento Perfecto es baja.
  • La traducción: Estos modelos son expertos en buscar y adivinar (como un ratón en un laberinto que prueba todos los caminos hasta encontrar la salida), pero no siempre son expertos en construir una historia lógica coherente.
  • El hallazgo: Cuando los problemas son difíciles, los modelos tienden a "divagar" (crear ramas de mapa que no llevan a nada) en lugar de seguir un camino lógico y directo.

5. ¿Por qué es importante?

Este trabajo es como ponerle cámaras de seguridad al proceso de pensamiento de la IA.

  • Nos permite saber si la IA está aprendiendo la lógica o solo memorizando patrones de búsqueda.
  • Ayuda a los ingenieros a diseñar mejores modelos que no solo den la respuesta correcta, sino que sepan explicar por qué de una manera que tenga sentido paso a paso.

En resumen

Imagina que la IA es un chef.

  • Antes: Si el plato sabía rico, decíamos "¡Eres un chef genial!".
  • Ahora (con DAG-MATH): Miramos la receta. Si el chef mezcló ingredientes al azar y por suerte salió rico, le decimos: "El plato está bueno, pero tu técnica es mala. Necesitas aprender a seguir la receta paso a paso".

Este paper nos da la herramienta para exigirle a la IA que no solo "acierte", sino que razone de verdad.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →