RLP: Reinforcement as a Pretraining Objective

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un bambino a risolvere un problema di matematica.

Il metodo tradizionale (come fanno oggi le intelligenze artificiali) è un po' come costringere il bambino a memorizzare a memoria la risposta finale di migliaia di esercizi, parola per parola, senza mai chiedergli "come ci sei arrivato?". Il bambino impara a ripetere la risposta giusta, ma spesso non capisce il ragionamento dietro. Quando gli chiedi qualcosa di nuovo, si blocca perché non ha mai imparato a pensare, solo a ricordare.

Il nuovo metodo presentato in questo paper (chiamato RLP) cambia completamente le regole del gioco. Invece di dire al bambino "memorizza la risposta", gli dici: "Prima di scrivere la risposta, fermati e spiegami cosa stai pensando".

Ecco come funziona, spiegato con una metafora semplice:

1. Il "Diario di Bordo" del Pensiero

Immagina che ogni volta che il modello deve scrivere la prossima parola di una frase, prima di farlo, sia obbligato a scrivere un breve "diario di bordo" (una catena di pensieri) su un foglio di carta invisibile.

Fase 1: Il modello guarda il contesto (es. "Il sole sorge a...").
Fase 2 (Il nuovo passo): Prima di scrivere "est", il modello scrive nel suo diario: "Ok, so che la terra gira, e il sole appare da quella direzione...".
Fase 3: Ora, basandosi su quel pensiero, scrive la parola "est".

2. Il "Giudice Interno" (La Ricompensa)

Come fa il modello a sapere se il suo pensiero è stato utile? Non ha bisogno di un insegnante umano che corregge i compiti (che sarebbe troppo lento e costoso).
Il modello ha un doppio sistema:

Il "Pensatore" (Te): Prova a indovinare la parola successiva dopo aver scritto il pensiero.
Il "No-Pensatore" (L'EMA): È una versione più vecchia e pigra del modello che prova a indovinare la stessa parola senza scrivere il pensiero.

Se il "Pensatore" indovina la parola molto meglio del "No-Pensatore", allora il pensiero è stato utile. Il modello riceve una "ricompensa" (un punto positivo) per aver pensato. Se il pensiero non aiuta a indovinare meglio, non riceve nulla.

3. Perché è rivoluzionario?

Fino a oggi, l'allenamento per il ragionamento avveniva alla fine, quando il modello era già "adulto" e si usavano tecniche complesse per correggerlo.
RLP dice: "Facciamo questo mentre il modello sta ancora imparando le basi, durante la sua 'infanzia' (pre-training)".

L'analogia dell'atleta: Prima, allenavamo gli atleti facendogli correre solo la distanza (pre-training) e poi, alla fine, gli insegnavamo la tecnica di corsa (post-training). Con RLP, insegniamo la tecnica mentre corrono. Il muscolo del ragionamento si sviluppa insieme a quello della memoria.

I Risultati Magici

Gli autori hanno provato questo metodo su diversi modelli (dai piccoli ai grandi) e i risultati sono stati sorprendenti:

Meno dati, più intelligenza: Hanno ottenuto risultati migliori usando molto meno dati rispetto ai metodi tradizionali. È come se il modello avesse imparato a "studiare meglio" invece di "studiare di più".
Pensiero trasversale: Non ha imparato solo a fare i compiti di matematica. Ha imparato a ragionare anche su scienza, storia e logica generale, perché il meccanismo di "pensare prima di parlare" è utile ovunque.
Nessun correttore esterno: Il sistema è autonomo. Non serve un umano o un altro programma per dire "bravo" o "sbagliato". Il modello si valuta da solo confrontando il suo pensiero con la sua versione senza pensiero.

In sintesi

Questo paper introduce un modo per insegnare alle Intelligenze Artificiali a pensare prima di parlare direttamente mentre imparano a leggere e scrivere. Invece di essere semplici ripetitori di parole, diventano piccoli investigatori che analizzano il contesto, fanno ipotesi (i pensieri) e usano quelle ipotesi per prevedere il futuro con molta più precisione.

È come passare da un'automobile che va dritta solo perché ha il pilota automatico, a un'auto che ha un navigatore intelligente che guarda la mappa, pianifica la rotta e poi guida. Il risultato? Un'auto che arriva a destinazione in modo molto più sicuro ed efficiente, anche su strade nuove.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'attuale paradigma dominante per l'addestramento dei Large Reasoning Models (LRM) si basa su due fasi distinte:

Pre-addestramento (Pretraining): Utilizza esclusivamente la perdita di previsione del prossimo token (Next-Token Prediction, NTP) su enormi quantità di dati. Questo obiettivo non incoraggia esplicitamente il ragionamento a lungo raggio o l'integrazione con la conoscenza del mondo.
Post-addestramento (Post-training): Le capacità di ragionamento complesso vengono indotte solo nelle fasi finali tramite Supervised Fine-Tuning (SFT) e Reinforcement Learning (RLHF/RLVR), spesso richiedendo dataset curati o verificatori esterni.

Il problema centrale è che questo approccio tratta il ragionamento come un'aggiunta tardiva, mentre la comprensione umana integra input e conoscenze pregresse in modo parallelo. Inoltre, i metodi RL esistenti per il pre-addestramento (come RPT) spesso dipendono da reward sparsi, binari e da filtri esterni, limitando la loro applicabilità a testi generici su larga scala.

2. Metodologia: RLP (Reinforcement Learning Pretraining)

Il paper propone RLP, un obiettivo di pre-addestramento guidato dall'informazione che introduce il "pensiero" (Chain-of-Thought, CoT) come un'azione esplorativa prima di prevedere il prossimo token, direttamente durante la fase di pre-training su testi ordinari.

Concetti Chiave:

CoT come Azione: Per ogni posizione $t$ in una sequenza di testo, il modello campiona un pensiero latente $c_t$ (una traccia di ragionamento) prima di prevedere il token osservato $x_t$ .
Reward Verifier-Free (Senza Verificatore): Il segnale di ricompensa non richiede un verificatore esterno o una soluzione corretta nota. È calcolato come il guadagno informativo (Information Gain).
- Si confronta la log-verosimiglianza del token osservato $x_t$ dato il contesto e il pensiero ( $p_\theta(x_t | x_{<t}, c_t)$ ) con una baseline "No-Think" ( $\bar{p}_\phi(x_t | x_{<t})$ ).
- La baseline è un insegnante EMA (Exponential Moving Average) che viene aggiornato lentamente per evitare l'inganno del reward (reward hacking).
- La ricompensa $r(c_t)$ è definita come:
  $r(c_t) = \log p_\theta(x_t | x_{<t}, c_t) - \log \bar{p}_\phi(x_t | x_{<t})$
Densità del Reward: A differenza dei metodi precedenti che applicano reward solo su token selezionati, RLP genera un segnale denso e posizionale per ogni token, permettendo l'addestramento su interi documenti.
Ottimizzazione:
- L'obiettivo è massimizzare il guadagno informativo atteso.
- Vengono utilizzati vantaggi relativi di gruppo (Group-Relative Advantages) per ridurre la varianza: si campionano $G$ pensieri per contesto e si calcola l'avvantaggio rispetto alla media del gruppo.
- L'aggiornamento dei parametri avviene solo sui token del pensiero (CoT), utilizzando un surrogate loss clipato (simile a PPO), mentre il reward è trattato come costante rispetto ai parametri del modello.

3. Contributi Chiave

Nuovo Paradigma di Pre-training: RLP sposta l'obiettivo del Reinforcement Learning dalla fase di post-training a quella di pre-training, insegnando ai modelli a "pensare" prima di prevedere fin dall'inizio.
Reward Intrinseco e Denso: Introduce un meccanismo di reward basato sul guadagno informativo che è:
- Verifier-free: Non richiede soluzioni etichettate o verificatori esterni.
- Dense: Applicabile a ogni posizione del testo, non solo a token ad alta entropia.
- Domain-agnostic: Funziona su qualsiasi testo (web, accademico, SFT) senza bisogno di dataset curati.
Garanzie Teoriche: Dimostra teoricamente che massimizzare il reward atteso equivale a ridurre l'entropia incrociata (Cross-Entropy) rispetto alla baseline e fornisce un limite inferiore calcolabile per il miglioramento.
Algoritmo Stabile: Sviluppa un algoritmo pratico che combina aggiornamenti RL con l'addestramento standard tramite vantaggi relativi e una baseline EMA, garantendo stabilità durante l'addestramento su larga scala.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su modelli di diverse dimensioni e architetture (QWEN3-1.7B-BASE e NEMOTRON-NANO-12B-V2).

Performance su Qwen3-1.7B:
- RLP ha superato le baseline di pre-training continuo (CPT) e Next-Token Prediction (NTP) di circa il 19% in media su una suite di 8 benchmark matematici e scientifici.
- I miglioramenti sono stati particolarmente evidenti su task di ragionamento pesante come AIME25 e MMLU-Pro.
- Anche dopo un forte post-training (SFT + RLVR), i vantaggi di RLP si sono mantenuti e amplificati, superando le controparti tradizionali del 7-8%.
Scalabilità e Architettura (NEMOTRON-NANO-12B-V2):
- Applicando RLP a un modello ibrido Mamba-Transformer da 12B parametri, l'accuratezza media è passata dal 42.81% al 61.32% (un miglioramento relativo del 43%).
- Il ragionamento scientifico è migliorato del 23%.
- RLP ha dimostrato di funzionare efficacemente anche su modelli più grandi (Qwen3-14B) e su checkpoint intermedi di pre-training.
Efficienza Computazionale e Dati:
- RLP ha ottenuto risultati superiori rispetto a metodi basati su RL come RPT (Reinforcement Pre-training), anche in scenari con budget computazionali e di token matched.
- È estremamente efficiente nei dati: su un modello da 12B, RLP ha raggiunto performance superiori utilizzando solo lo 0.125% dei dati necessari per una baseline CPT equivalente in termini di FLOP.
Generalizzazione:
- RLP ha dimostrato di estrarre segnali di ragionamento anche da corpora generici (web crawl, paper accademici) senza bisogno di dataset SFT specifici, confermando la sua capacità di trasferimento cross-domain.

5. Significato e Impatto

Il lavoro RLP rappresenta un cambiamento fondamentale nel modo in cui i modelli linguistici apprendono il ragionamento:

Riduzione del Divario: Colma il divario tra la previsione del prossimo token (statistica) e l'emergere di capacità di ragionamento (logica), rendendo il ragionamento una competenza intrinseca appresa durante la fase di pre-training.
Scalabilità e Accessibilità: Elimina la dipendenza da dataset curati e costosi o da verificatori esterni per l'addestramento RL, rendendo possibile l'applicazione del reinforcement learning su scale di dati web-scale.
Robustezza: I modelli addestrati con RLP mostrano capacità di ragionamento più robuste e durature, che non vengono "lavate via" dalle fasi successive di allineamento, ma anzi si potenziano.

In sintesi, RLP dimostra che il reinforcement learning, se formulato come un obiettivo di pre-training basato sul guadagno informativo, può insegnare ai modelli a pensare in modo indipendente e strutturato molto prima della fase di post-training, creando basi più solide per l'intelligenza artificiale.

RLP: Reinforcement as a Pretraining Objective

1. Il "Diario di Bordo" del Pensiero

2. Il "Giudice Interno" (La Ricompensa)

3. Perché è rivoluzionario?

I Risultati Magici

In sintesi

1. Il Problema

2. Metodologia: RLP (Reinforcement Learning Pretraining)

Concetti Chiave:

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Impatto

Articoli simili

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering