Autores originales: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Publicado 2026-06-02✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que tienes a un artista muy talentoso que puede pintar una obra maestra comenzando con un lienzo en blanco y añadiendo detalles gradualmente hasta que la imagen está completa. Así es como funcionan los Modelos de Lenguaje de Difusión (DLM). A diferencia de los escritores de IA tradicionales que construyen oraciones palabra por palabra (como apilar ladrillos), estos modelos comienzan con un desorden de "ruido" (como la estática en un televisor viejo) y gradualmente lo "denoizan" para revelar una historia o solución coherente paso a paso.

El artículo presenta un nuevo método de entrenamiento llamado d2 para enseñar a estos artistas a resolver acertijos difíciles (como problemas matemáticos o juegos de lógica) de una manera mucho mejor. Aquí está el desglose de cómo funciona, utilizando analogías sencillas.

El Problema: El Crítico "Ciego"

Para enseñar a una IA a razonar, los investigadores utilizan el Aprendizaje por Refuerzo (RL). Piensa en esto como un juego donde la IA intenta resolver un acertijo y un "Crítico" (un sistema de recompensa) le otorga una puntuación. Si la IA obtiene una buena puntuación, aprende a hacer eso de nuevo.

Sin embargo, hay un inconveniente con los modelos de difusión. Para aprender eficazmente, la IA necesita saber qué tan probable fue que generara esa secuencia específica de palabras.

Para la IA tradicional (Autorregresiva): Es como escribir una carta. Sabes exactamente qué escribiste primero, segundo y tercero. Calcular la "probabilidad" es fácil y rápido.
Para la IA de Difusión: Es como observar una escultura emergiendo de un bloque de piedra. La IA realiza miles de pequeños ajustes. Para conocer la probabilidad exacta de la estatua final, teóricamente tendrías que rebobinar el video y reproducir cada uno de los fotogramas del proceso de escultura. Hacer esto para cada paso del entrenamiento es computacionalmente imposible (demasiado lento y costoso).

Debido a que no podían calcular esta "puntuación" con precisión, los métodos anteriores estaban adivinando, lo que resultaba en una capacidad de razonamiento deficiente.

La Solución: d2 (El Marcador Inteligente)

Los autores crearon d2, un marco de trabajo que actúa como un marcador super eficiente. Determina la "probabilidad" del viaje de la IA sin tener que reproducir toda la película cada vez. Construyeron dos herramientas diferentes para dos tipos de artistas distintos:

Herramienta 1: d2-AnyOrder (El "Espejo Mágico")

Algunos modelos de difusión son especiales; pueden revelar la imagen final en cualquier orden. Podrías pintar los ojos primero, luego la nariz, luego el fondo, o viceversa, y aun así funciona.

La Analogía: Imagina que tienes un espejo mágico. En lugar de ver la pintura suceder paso a paso, puedes mirar la pintura terminada e instantáneamente ver exactamente qué habría dicho el artista en cada paso, todo a la vez.
El Resultado: Esta herramienta, llamada d2-AnyOrder, calcula la puntuación perfecta en un solo vistazo (una sola pasada de la computadora). Es increíblemente precisa y hace que la IA aprenda muy rápido.

Herramienta 2: d2-StepMerge (La "Estrategia de Segmentación")

La mayoría de los modelos de difusión populares (como el famoso LLaDA) no pueden pintar en cualquier orden; tienen que seguir una secuencia específica. No tienen el "espejo mágico".

La Analogía: Como no podemos ver la película completa a la vez, la dividimos en segmentos. En lugar de ver cada fotograma, vemos la película en segmentos de 10 segundos. Estimamos la puntuación para cada segmento y los sumamos.
El Resultado: Esta herramienta, llamada d2-StepMerge, es una aproximación. No es perfecta, pero los autores demostraron matemáticamente que el error es pequeño y controlable. Sacrifica un poco de precisión a cambio de una ganancia masiva en velocidad, haciéndola práctica para modelos estándar.

Los Resultados: De Novato a Gran Maestro

Los investigadores probaron estas herramientas en algunos de los acertijos más difíciles para la IA:

Juegos de Lógica: Sudoku y Countdown (un juego matemático).
Problemas Matemáticos: GSM8K y MATH500 (estándares de referencia para el razonamiento matemático).

El Resultado:

Sin "hojas de trucos" adicionales (Fine-Tuning Supervisado): El marco d2 enseñó a los modelos a razonar mejor que cualquier método anterior.
Venciendo a la Competencia: En las pruebas de Sudoku y Countdown, los modelos entrenados con d2 alcanzaron puntuaciones cercanas al 92% y 56% respectivamente, aplastando a los mejores métodos anteriores que estaban estancados alrededor del 22% y 42%.
Maestría Matemática: En benchmarks matemáticos complejos, d2 estableció un nuevo récord de "Estado del Arte", demostrando que los modelos de difusión pueden ser tan buenos en razonamiento como los modelos tradicionales de generación de texto, pero con los beneficios añadidos de ser más rápidos y controlables.

Resumen

El artículo dice: "Encontramos una forma de enseñar a los modelos de IA de Difusión a pensar con claridad".

Se dieron cuenta de que la forma antigua de calificar el trabajo de la IA era demasiado lenta e imprecisa.
Inventaron d2, un nuevo sistema de calificación que es perfectamente preciso (para modelos especiales) o inteligente y eficiente (para modelos estándar).
Usando este nuevo sistema, los modelos de IA aprendieron a resolver acertijos lógicos y matemáticos significativamente mejor que antes, sin necesidad de que se les enseñaran las respuestas previamente.

En resumen, d2 le da a los modelos de difusión la capacidad de "mirar hacia atrás" en su propio proceso de pensamiento con precisión, permitiéndoles aprender de sus errores y convertirse en verdaderos expertos en razonamiento.

Resumen Técnico: d2: Mejorando el Razonamiento en Modelos de Lenguaje de Difusión mediante la Estimación de la Verosimilitud de la Trayectoria

Planteamiento del Problema

Los Modelos de Lenguaje de Difusión (DLM), particularmente los DLM de máscara, han emergido como alternativas competitivas a los modelos autorregresivos (AR) debido a su capacidad de control y generación paralela. Sin embargo, mejorar sus capacidades de razonamiento mediante Aprendizaje por Refuerzo (RL) sigue siendo un desafío. Si bien el RL se ha convertido en el estándar para inducir el razonamiento en modelos AR, aplicarlo a los DLM no es trivial. La dificultad central reside en la formulación del gradiente de la política: a diferencia de los modelos AR donde las verosimilitudes se factorizan limpiamente a través de las posiciones de los tokens, la verosimilitud exacta de una trayectoria de difusión es computacionalmente intratable. Calcular estas verosimilitudes de forma ingenua requiere $T$ pasadas hacia adelante (donde $T$ es el número de pasos de difusión), lo que hace que los métodos estándar de gradiente de política, como la Optimización de Política Relativa de Grupo (GRPO), sean computacionalmente prohibitivos. Las aproximaciones existentes suelen introducir un sesgo significativo, lo que conduce a actualizaciones de la política subóptimas.

Metodología

Los autores presentan d2, un marco de razonamiento diseñado para DLM de máscara. El marco se centra en un nuevo algoritmo de gradiente de política derivado del objetivo GRPO, que requiere explícitamente una estimación precisa de las verosimilitudes de la trayectoria de muestreo. Para abordar el cuello de botella computacional, el artículo propone una familia de estimadores adaptados a distintas clases de modelos:

1. Fundamento Teórico

Los autores derivan un objetivo de estilo GRPO para DLM de máscara mediante la marginalización de la verosimilitud sobre los latentes temporales y el empleo de muestreo de importancia. La descomposición de gradiente resultante (Teorema 3.1) depende de la relación de las verosimilitudes de la trayectoria entre la política actual $\pi_\theta$ y una política obsoleta $\pi_{old}$ . El desafío clave es evaluar $\pi(x_{0:T})$ de manera eficiente.

2. Los Estimadores

El marco d2 ofrece dos estimadores específicos basados en la arquitectura del modelo:

d2-AnyOrder (Estimador Exacto):
- Objetivo: DLM que admiten decodificación de cualquier orden (AO-dLLMs). Estos modelos permiten decodificar tokens en cualquier orden, siempre que la máscara de atención respete ciertas restricciones de causalidad (máscaras independientes y causalidad de orden).
- Mecanismo: Construye una secuencia de longitud $2L$ (concatenando los tokens limpios y los tokens de máscara) con codificaciones posicionales y máscaras de atención específicas. Esto permite al modelo calcular las verosimilitudes condicionales exactas de todos los tokens en una sola pasada hacia adelante.
- Limitación: Los DLM de máscara estándar (como LLaDA) no admiten nativamente la decodificación de cualquier orden; sus objetivos de entrenamiento no garantizan las propiedades de atención necesarias para que este estimador sea insesgado.
d2-StepMerge (Estimador Aproximado):
- Objetivo: Modelos de difusión de máscara (MDM) estándar que no admiten la decodificación de cualquier orden.
- Mecanismo: Inspirado en la verosimilitud compuesta por bloques, este estimador aproxima la verosimilitud de la trayectoria dividiendo la trayectoria de $T$ pasos en $N$ segmentos temporales contiguos. En lugar de evaluar cada paso, evalúa la verosimilitud de los tokens no enmascarados dentro de cada segmento utilizando una sola pasada hacia adelante por segmento.
- Compromiso (Trade-off): Reduce el número de pasadas hacia adelante de $T$ a $N$ . El artículo proporciona un límite superior teórico (Teorema 4.1) sobre el error de aproximación (divergencia KL), demostrando que el error disminuye monótonamente a medida que $N$ aumenta, cuantificando un compromiso entre cómputo y sesgo.

Contribuciones Clave

Marco d2: Un marco de post-entrenamiento de RL para DLM de máscara que deriva un objetivo GRPO dependiente de una estimación precisa de la verosimilitud de la trayectoria.
d2-AnyOrder: Un estimador de verosimilitud de una sola pasada y exacto para AO-dLLMs, demostrando que la estimación de verosimilitud insesgada supera significativamente a las líneas base existentes en entornos de RL.
d2-StepMerge: Un estimador determinista de múltiples pasadas para MDM estándar con error de aproximación analíticamente acotado, ofreciendo un compromiso entre eficiencia y precisión superior comparado con métodos previos como diffu-GRPO.
Validación Empírica: Experimentos extensos que muestran que d2 alcanza un rendimiento de vanguardia en pruebas de razonamiento sin depender del ajuste fino supervisado de cadena de pensamiento (CoT).

Resultados Experimentales

Los autores evaluaron d2 en tareas de razonamiento lógico (Countdown, Sudoku) y razonamiento matemático (GSM8K, MATH500), así como en tareas de programación y control de toxicidad.

Rendimiento en AO-dLLMs: Al aplicarse a modelos que admiten decodificación de cualquier orden (por ejemplo, Eso-LM, Set Diffusion y un LLaDA personalizado de Cualquier Orden), d2-AnyOrder superó significativamente a las líneas base como DDPO y diffu-GRPO. Por ejemplo, en GSM8K con una base Qwen3-1.7B, d2-AnyOrder alcanzó un 67% de precisión frente al 63% de diffu-GRPO.
Rendimiento en MDM Estándar: Aplicado a LLaDA-8B-Instruct (un DLM de máscara estándar), d2-StepMerge (con $N=16$ $N = 16$ ) estableció nuevos resultados de vanguardia:
- Sudoku: 91.9% (frente al 22.1% para d1 con SFT).
- Countdown: 56.6% (frente al 42.2% para d1).
- GSM8K: 85.0% (frente al 82.1% para d1).
- MATH500: 41.6% (frente al 39.0% para wd1).
- Notablemente, estos resultados se lograron sin el ajuste fino supervisado de datos de CoT adicionales, mientras que algunas líneas base dependieron de tales datos.
Generalización: El método se generalizó a otras arquitecturas (Dream 7B) y tareas (HumanEval, MBPP), mostrando una mejor generalización de longitud en comparación con diffu-GRPO.
Ablación: Los experimentos confirmaron que las verosimilitudes exactas (d2-AnyOrder) proporcionan señales de mayor fidelidad que las aproximaciones, y que d2-StepMerge con un $N$ óptimo (por ejemplo, 16) equilibra mejor el costo computacional y la precisión que los valores extremos.

Significancia y Reivindicaciones

El artículo sostiene que la estimación precisa de la verosimilitud de la trayectoria es central para el éxito del RL para el razonamiento en DLM. Los autores argumentan que los métodos anteriores no lograron alcanzar un rendimiento óptimo porque dependían de estimaciones de verosimilitud sesgadas o computacionalmente costosas.

Contribución Teórica: El trabajo proporciona la primera derivación rigurosa de un objetivo GRPO para DLM de máscara y establece límites teóricos sobre el error de aproximación de las estrategias de fusión de pasos (step-merging).
Impacto Práctico: d2 demuestra que los modelos de difusión pueden alcanzar capacidades de razonamiento competitivas con, o superiores a, los modelos autorregresivos cuando se entrenan adecuadamente con RL, incluso sin datos extensos de CoT supervisado.
Perspectiva Futura: Los autores señalan que, aunque d2-AnyOrder es superior, su aplicabilidad está actualmente limitada a modelos entrenados específicamente para la decodificación de cualquier orden. Consideran el desarrollo de modelos de lenguaje de difusión de cualquier orden más fuertes y de propósito general como un paso natural para aprovechar plenamente el estimador exacto.

El artículo concluye que d2 establece un nuevo estado del arte para los DLM en tareas de razonamiento lógico y matemático, validando la eficacia de sus estrategias de estimación de verosimilitud para desbloquear el potencial de razonamiento de los modelos de lenguaje basados en difusión.

d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation