Autori originali: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Pubblicato 2026-06-02✓ Author reviewed ⓘ

📖 5 min di lettura🧠 Approfondimento

Autori originali: Guanghan Wang, Gilad Turok, Yair Schiff, Marianne Arriola, Volodymyr Kuleshov

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di avere un artista molto talentuoso che può dipingere un capolavoro partendo da una tela bianca e aggiungendo gradualmente i dettagli finché l'immagine non è completa. È così che funzionano i Modelli di Linguaggio di Diffusione (DLM). A differenza dei tradizionali scrittori IA che costruiscono frasi una parola alla volta (come impilare mattoni), questi modelli partono da un ammasso disordinato di "rumore" (come la staticità su una vecchia TV) e lo "denoisano" lentamente, rivelando una storia o una soluzione coerente passo dopo passo.

Il documento presenta un nuovo metodo di addestramento chiamato d2 per insegnare a questi artisti come risolvere enigmi difficili (come problemi di matematica o giochi di logica) molto meglio. Ecco la suddivisione di come funziona, utilizzando semplici analogie.

Il Problema: Il Critico "Cieco"

Per insegnare a un'IA a ragionare, i ricercatori utilizzano l'Apprendimento per Rinforzo (RL). Immaginalo come un gioco in cui l'IA cerca di risolvere un enigma e un "Critico" (un sistema di ricompensa) le assegna un punteggio. Se l'IA ottiene un buon punteggio, impara a ripetere quell'azione.

Tuttavia, c'è un problema con i modelli di diffusione. Per imparare efficacemente, l'IA ha bisogno di sapere esattamente quanto fosse probabile che generasse quella specifica sequenza di parole.

Per l'IA tradizionale (Autoregressiva): È come scrivere una lettera. Sai esattamente cosa hai scritto primo, secondo e terzo. Calcolare la "probabilità" è facile e veloce.
Per l'IA di Diffusione: È come guardare una scultura emergere da un blocco di pietra. L'IA compie migliaia di minuscoli aggiustamenti. Per conoscere la probabilità esatta della statua finale, dovresti teoricamente riavvolgere il video e riprodurre ogni singolo fotogramma del processo di scultura. Fare questo per ogni fase dell'addestramento è computazionalmente impossibile (troppo lento e costoso).

Poiché non potevano calcolare questo "punteggio" con precisione, i metodi precedenti stavano tirando a indovinare, portando a scarse capacità di ragionamento.

La Soluzione: d2 (Il Segnapunti Intelligente)

Gli autori hanno creato d2, un framework che funge da segnapunti super efficiente. Esso riesce a determinare la "probabilità" del percorso dell'IA senza dover riprodurre l'intero film ogni volta. Hanno costruito due strumenti diversi per due diversi tipi di artisti:

Strumento 1: d2-AnyOrder (Lo "Specchio Magico")

Alcuni modelli di diffusione sono speciali; possono rivelare l'immagine finale in qualsiasi ordine. Potresti dipingere prima gli occhi, poi il naso, poi lo sfondo, o viceversa, e lo stesso funziona.

L'Analogia: Immagina di avere uno specchio magico. Invece di guardare la pittura che avviene passo dopo passo, puoi guardare il quadro finito e vedere istantaneamente esattamente cosa l'artista avrebbe detto in ogni singolo passaggio, tutto in una volta.
Il Risultato: Questo strumento, chiamato d2-AnyOrder, calcola il punteggio perfetto con un solo sguardo (un unico passaggio al computer). È incredibilmente accurato e fa imparare l'IA molto velocemente.

Strumento 2: d2-StepMerge (La "Strategia a Blocchi")

La maggior parte dei popolari modelli di diffusione (come il famoso LLaDA) non possono dipingere in qualsiasi ordine; devono seguire una sequenza specifica. Non hanno lo "specchio magico".

L'Analogia: Poiché non possiamo vedere l'intero film in una volta sola, lo dividiamo in blocchi. Invece di guardare ogni singolo fotogramma, guardiamo il film in segmenti di 10 secondi. Stimiamo il punteggio per ogni segmento e li sommiamo.
Il Risultato: Questo strumento, chiamato d2-StepMerge, è un'approssimazione. Non è perfetto, ma gli autori hanno dimostrato matematicamente che l'errore è piccolo e controllabile. Sacrifica un briciolo di accuratezza per un enorme guadagno in velocità, rendendolo pratico per i modelli standard.

I Risultati: Da Novizio a Gran Maestro

I ricercatori hanno testato questi strumenti su alcuni degli enigmi più difficili per l'IA:

Giochi di Logica: Sudoku e Countdown (un gioco matematico).
Problemi di Matematica: GSM8K e MATH500 (standard di riferimento per il ragionamento matematico).

L'Esito:

Senza alcun "foglio di trucchi" aggiuntivo (Fine-Tuning Supervisionato): Il framework d2 ha insegnato ai modelli a ragionare meglio di qualsiasi metodo precedente.
Sconfiggere la Concorrenza: Nei test Sudoku e Countdown, i modelli addestrati con d2 hanno raggiunto punteggi vicini al 92% e al 56% rispettivamente, schiacciando i migliori metodi precedenti che erano bloccati intorno al 22% e al 42%.
Maestria Matematica: Nei benchmark matematici complessi, d2 ha stabilito un nuovo record di "Stato dell'Arte", dimostrando che i modelli di diffusione possono essere tanto bravi nel ragionamento quanto i modelli tradizionali di generazione di testo, ma con i vantaggi aggiuntivi di essere più veloci e controllabili.

Riassunto

Il paper afferma: "Abbiamo trovato un modo per insegnare ai modelli di IA di Diffusione come pensare chiaramente."

Hanno capito che il vecchio modo di valutare il lavoro dell'IA era troppo lento e impreciso.
Hanno inventato d2, un nuovo sistema di valutazione che è o perfettamente accurato (per modelli speciali) o intelligentemente efficiente (per modelli standard).
Utilizzando questo nuovo sistema, i modelli di IA hanno imparato a risolvere enigmi logici e matematici significativamente meglio di prima, senza bisogno di essere pre-istruiti sulle risposte.

In breve, d2 dà ai modelli di diffusione la capacità di "guardare indietro" al proprio processo di pensiero in modo accurato, permettendo loro di imparare dai propri errori e diventare veri esperti di ragionamento.

Riassunto Tecnico: d2: Migliorare il Ragionamento nei Modelli di Linguaggio a Diffusione tramite la Stima della Verosimiglianza della Traiettoria

Definizione del Problema

I Modelli di Linguaggio a Diffusione (DLM), in particolare i DLM con maschera (masked DLMs), sono emersi come alternative competitive ai modelli autoregressivi (AR) grazie alla loro controllabilità e alle capacità di generazione parallela. Tuttavia, potenziare le loro capacità di ragionamento tramite l'Apprendimento per Rinforzo (RL) rimane una sfida. Sebbene l'RL sia diventato lo standard per indurre il ragionamento nei modelli AR, applicarlo ai DLM è non banale. La difficoltà principale risiede nella formulazione del gradiente della policy: a differenza dei modelli AR dove le verosimiglianze si fattorizzano chiaramente attraverso le posizioni dei token, la verosimiglianza esatta di una traiettoria di diffusione è computazionalmente intrattabile. Calcolare ingenuamente queste verosimiglianze richiede $T$ passaggi in avanti (dove $T$ è il numero di passi di diffusione), rendendo i metodi standard di gradiente della policy come il Group Relative Policy Optimization (GRPO) computazionalmente proibitivi. Le approssimazioni esistenti introducono spesso un bias significativo, portando a aggiornamenti della policy subottimali.

Metodologia

Gli autori introducono d2, un framework di ragionamento progettato per i DLM con maschera. Il framework si basa su un nuovo algoritmo di gradiente della policy derivato dall'obiettivo GRPO, che richiede esplicitamente una stima accurata delle verosimiglianze delle traiettorie di campionamento. Per affrontare il collo di bottiglia computazionale, il paper propone una famiglia di stimatori adattati a diverse classi di modelli:

1. Fondazione Teorica

Gli autori derivano un obiettivo di tipo GRPO per i DLM con maschera marginalizzando la verosimiglianza sui latenti temporali e impiegando il campionamento per importanza (importance sampling). La decomposizione del gradiente risultante (Teorema 3.1) dipende dal rapporto tra le verosimiglianze delle traiettorie tra la policy corrente $\pi_\theta$ e una policy obsoleta $\pi_{old}$ . La sfida chiave è valutare $\pi(x_{0:T})$ in modo efficiente.

2. Gli Stimatori

Il framework d2 offre due stimatori specifici basati sull'architettura del modello:

d2-AnyOrder (Stimatore Esatto):
- Target: DLM che supportano la decodifica in qualsiasi ordine (AO-dLLMs). Questi modelli permettono di decodificare i token in qualsiasi ordine, a condizione che la maschera di attenzione rispetti specifici vincoli di causalità (maschere indipendenti e causalità dell'ordine).
- Meccanismo: Costruisce una sequenza di lunghezza $2L$ (concatenando i token puliti e i token di maschera) con specifiche codifiche posizionali e maschere di attenzione. Ciò consente al modello di calcolare le verosimiglianze condizionali esatte di tutti i token in un singolo passaggio in avanti (single forward pass).
- Limitazione: I DLM con maschera standard (come LLaDA) non supportano nativamente la decodifica in qualsiasi ordine; i loro obiettivi di addestramento non garantiscono le proprietà di attenzione necessarie affinché questo stimatore sia non distorto (unbiased).
d2-StepMerge (Stimatore Approssimato):
- Target: Modelli di diffusione con maschera (MDM) standard che non supportano la decodifica in qualsiasi ordine.
- Meccanismo: Ispirato alla verosimiglianza composita a blocchi (block composite likelihood), questo stimatore approssima la verosimiglianza della traiettoria dividendo la traiettoria a $T$ passi in $N$ segmenti temporali contigui. Invece di valutare ogni passo, valuta la verosimiglianza dei token non mascherati all'interno di ogni segmento utilizzando un singolo passaggio in avanti per ogni segmento.
- Compromesso (Trade-off): Riduce il numero di passaggi in avanti da $T$ a $N$ . Il paper fornisce un limite superiore teorico (Teorema 4.1) sull'errore di approssimazione (divergenza KL), mostrando che l'errore diminuisce monotonicamente all'aumentare di $N$ , quantificando un compromesso tra calcolo e bias.

Contributi Chiave

Framework d2: Un framework di post-addestramento RL per i DLM con maschera che deriva un obiettivo GRPO dipendente da una stima accurata della verosimiglianza della traiettoria.
d2-AnyOrder: Uno stimatore di verosimiglianza a passaggio singolo ed esatto per gli AO-dLLM, dimostrando che la stima della verosimiglianza non distorta supera significativamente i baseline esistenti in contesti di RL.
d2-StepMerge: Uno stimatore deterministico a passaggi multipli per gli MDM standard con errore di approssimazione analiticamente limitato, offrendo un compromesso efficienza-accuratezza superiore rispetto a metodi precedenti come diffu-GRPO.
Validazione Empirica: Esperimenti estesi che mostrano come d2 raggiunga prestazioni allo stato dell'arte sui benchmark di ragionamento senza fare affidamento sul fine-tuning supervisionato della catena di pensiero (CoT).

Risultati Sperimentali

Gli autori hanno valutato d2 su benchmark di ragionamento logico (Countdown, Sudoku) e ragionamento matematico (GSM8K, MATH500), oltre a compiti di coding e steering della tossicità.

Performance su AO-dLLMs: Applicato a modelli che supportano la decodifica in qualsiasi ordine (es. Eso-LM, Set Diffusion e un custom Any-Order Causal LLaDA), d2-AnyOrder ha superato significativamente i baseline come DDPO e diffu-GRPO. Ad esempio, su GSM8K con una base Qwen3-1.7B, d2-AnyOrder ha raggiunto il 67% di accuratezza rispetto al 63% di diffu-GRPO.
Performance su MDM Standard: Applicato a LLaDA-8B-Instruct (un DLM con maschera standard), d2-StepMerge (con $N=16$ $N = 16$ ) ha stabilito nuovi risultati allo stato dell'arte:
- Sudoku: 91.9% (rispetto al 22.1% per d1 con SFT).
- Countdown: 56.6% (rispetto al 42.2% per d1).
- GSM8K: 85.0% (rispetto all'82.1% per d1).
- MATH500: 41.6% (rispetto al 39.0% per wd1).
- Notevolmente, questi risultati sono stati ottenuti senza fine-tuning supervisionato su dati CoT extra, mentre alcuni baseline si sono avvalsi di tali dati.
Generalizzazione: Il metodo si è generalizzato ad altre architetture (Dream 7B) e compiti (HumanEval, MBPP), mostrando una migliore generalizzazione della lunghezza rispetto a diffu-GRPO.
Ablation: Gli esperimenti hanno confermato che le verosimiglianze esatte (d2-AnyOrder) forniscono segnali a maggiore fedeltà rispetto alle approssimazioni, e che d2-StepMerge con un $N$ ottimale (es. 16) bilancia meglio il costo computazionale e l'accuratezza rispetto ai valori estremi.

Significato e Rivendicazioni

Il paper sostiene che una stima accurata della verosimiglianza della traiettoria è centrale per il successo dell'RL per il ragionamento nei DLM. Gli autori affermano che i metodi precedenti non sono riusciti a raggiungere prestazioni ottimali perché si affidavano a stime di verosimiglianza distorte o computazionalmente onerose.

Contributo Teorico: Il lavoro fornisce la prima derivazione rigorosa di un obiettivo GRPO per i DLM con maschera e stabilisce i limiti teorici sull'errore di approssimazione delle strategie di step-merging.
Impatto Pratico: d2 dimostra che i modelli di diffusione possono raggiungere capacità di ragionamento competitive con, o superiori a, i modelli autoregressivi quando addestrati correttamente con l'RL, anche senza estesi dati CoT supervisionati.
Prospettive Future: Gli autori osservano che, sebbene d2-AnyOrder sia superiore, la sua applicabilità è attualmente limitata a modelli addestrati specificamente per la decodifica in qualsiasi ordine. Considerano lo sviluppo di AO-dLLM più forti e general-purpose come un passo naturale per sfruttare appieno lo stimatore esatto.

Il paper conclude che d2 stabilisce un nuovo stato dell'arte per i DLM nei compiti di ragionamento logico e matematico, validando l'efficacia delle loro strategie di stima della verosimiglianza nel sbloccare il potenziale di ragionamento dei modelli di linguaggio basati sulla diffusione.

d2: Improving Reasoning in Diffusion Language Models via Trajectory Likelihood Estimation