Reward Models Inherit Value Biases from Pretraining

Each language version is independently generated for its own context, not a direct translation.

🎭 Il "Seme" della Personalità: Perché i Robot Ricordano la loro Infanzia

Immagina di voler costruire un bravo insegnante (un modello di intelligenza artificiale) che sappia cosa è giusto e cosa è sbagliato, e che sappia cosa piace alle persone. Per farlo, non parti da zero: prendi un giovane studente brillante (il modello pre-addestrato, come Llama o Gemma) che ha già letto milioni di libri e ha già una sua personalità, e gli dai un tutor (il Reward Model) per insegnargli a rispondere meglio alle domande.

Il paper di ricerca che hai letto ci dice una cosa sconvolgente: il tutor non è una lavagna bianca.

Anche se il tutor viene addestrato con gli stessi dati e le stesse regole di tutti gli altri, eredita i pregiudizi e i valori del "giovane studente" su cui è stato costruito. È come se il tutor avesse ereditato il DNA morale del suo studente.

🌳 L'Analogia dell'Albero e del Frutto

Pensa a un albero (il modello pre-addestrato) che cresce nella foresta.

Se l'albero è un Llama, le sue radici sono profonde in un terreno che ama la Libertà, l'Indipendenza e il Successo individuale.
Se l'albero è un Gemma, le sue radici sono in un terreno che ama l'Amore, la Famiglia e la Connessione con gli altri.

Quando raccogliamo i frutti (le risposte dell'AI), ci aspettiamo che siano tutti uguali perché li abbiamo curati allo stesso modo. Invece, scopriamo che:

I frutti dell'albero Llama sanno di Libertà.
I frutti dell'albero Gemma sanno di Amore.

Il paper dimostra che questo succede anche quando i "frutti" (i Reward Models) vengono addestrati con le stesse istruzioni. Il "sapore" dell'albero originale è così forte che non può essere completamente cancellato.

🔍 Cosa hanno scoperto gli scienziati?

Gli autori hanno fatto un esperimento molto curioso. Hanno preso 10 dei migliori "tutor" (Reward Models) disponibili e li hanno fatti rispondere a una domanda semplice: "Qual è la cosa più grande di tutti i tempi?" (o al contrario, "Qual è la cosa peggiore?").

Ecco cosa è successo:

I Tutor basati su Llama hanno detto: "La cosa più grande è la Libertà". Hanno premiato parole come Successo, Abilità, Opportunità.
I Tutor basati su Gemma hanno detto: "La cosa più grande è l'Amore". Hanno premiato parole come Famiglia, Amicizia, Compassione.

È come se due giudici di un concorso di bellezza, pur avendo le stesse regole, guardassero i concorrenti attraverso occhiali colorati diversi: uno vedeva solo chi era più coraggioso, l'altro chi era più gentile.

🧪 Il "Lavaggio" non funziona (del tutto)

La domanda logica è: "Ma se diamo al tutor tantissimi esempi di cosa piace alle persone, non imparerà a dimenticare la sua origine?"

Gli scienziati hanno provato ad addestrare nuovi tutor da zero, usando enormi quantità di dati (fino a 100.000 preferenze umane).

Risultato: Il divario si è ridotto un po', ma non è sparito.
È come se avessi cercato di lavare una macchia di inchiostro indelebile con acqua e sapone. L'inchiostro si schiarisce, ma il colore di fondo rimane visibile.

Anche con dati enormi, il "DNA" dell'albero originale (Llama o Gemma) continua a influenzare le decisioni del tutor.

💡 Perché è importante? (La morale della favola)

Fino a oggi, pensavamo che il problema dell'etica nell'AI fosse solo nella fase finale, quando si insegna al robot cosa è "buono" o "cattivo" (la fase di addestramento).

Questo paper ci dice: No, il problema inizia molto prima.

La scelta del "seme" conta: Quando uno sviluppatore sceglie quale modello usare come base (Llama, Gemma, Qwen, ecc.), sta scegliendo inconsciamente quali valori il suo sistema tenderà a privilegiare. Non è solo una questione di "quale modello è più veloce o intelligente", ma di "quale modello ha una moralità più vicina alla mia".
Non siamo neutri: Anche se cerchiamo di essere imparziali, i nostri robot ereditano i valori nascosti nei dati con cui sono stati nutriti per anni prima di incontrarci.
La sicurezza inizia alla radice: Se vogliamo creare AI sicure e allineate ai nostri valori, non possiamo limitarci a "correggere" il comportamento alla fine. Dobbiamo fare attenzione a come crescono (pre-addestramento) fin dall'inizio.

In sintesi

I Reward Models (i "tutor" che insegnano alle AI) non sono specchi neutri che riflettono perfettamente la volontà umana. Sono più come figli che assomigliano ai loro genitori. Anche se crescono in una scuola diversa con gli stessi maestri, porteranno sempre con sé un po' del carattere dei genitori (il modello pre-addestrato).

Quindi, la prossima volta che usi un'AI, ricorda: non sta solo rispondendo a te; sta anche parlando con la voce (e i valori) di chi l'ha cresciuta per prima.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Reward Models (RM) sono componenti fondamentali nelle pipeline di allineamento dei Large Language Models (LLM), in particolare nelle tecniche di Reinforcement Learning from Human Feedback (RLHF). Il loro scopo è valutare le risposte del modello in base alle preferenze umane. Tuttavia, la ricerca si è concentrata prevalentemente sui modelli pre-addestrati e sui modelli post-addestrati, trascurando i RM stessi.

Il problema centrale identificato è che i RM vengono inizializzati partendo da LLM pre-addestrati e successivamente fine-tunati. Gli autori ipotizzano che i RM ereditino i bias di valore (bias valoriali) presenti nel modello base pre-addestrato, influenzando il comportamento finale del modello allineato indipendentemente dai dati di preferenza utilizzati durante il fine-tuning. Questo crea un "vuoto conoscitivo" critico: le scelte fatte durante la fase di pretraining potrebbero determinare in modo persistente le preferenze etiche e valoriali del modello, rendendo difficile correggerle successivamente.

2. Metodologia

Gli autori hanno adottato un approccio multidisciplinare combinando tecniche di interpretabilità dei modelli e strumenti di psicolinguistica.

Campionamento esaustivo dei token (Exhaustive Token Search): Invece di generare risposte casuali, il metodo valuta ogni singolo token del vocabolario del modello in risposta a prompt specifici. Questo permette di identificare i token con il punteggio di ricompensa più alto ("ottimali") e più basso ("pessimi").
Corpora Psicolinguistici Validati: Per quantificare i bias, sono stati utilizzati due corpora:
- The Big Two: Misura le dimensioni psicologiche di Agency (agire, successo, libertà, competenza individuale) e Communion (relazioni, amore, famiglia, connessione).
- Moral Foundations Dictionary 2 (MFD2): Misura cinque fondamenti morali (Autorità, Cura, Equità, Lealtà, Santità).
Analisi Comparativa:
- Studio su RM "in the wild": Analisi di 10 modelli RM open-weight leader (basati su Llama e Gemma) presenti su RewardBench.
- Analisi dei Modelli Base: Confronto diretto delle probabilità logaritmiche (log-probabilities) delle versioni instruction-tuned e pretrained di Llama e Gemma.
- Reward Implicito (Implicit Reward): Definizione di un reward model implicito basato sulla differenza di log-probabilità tra due modelli ( $\log \pi_2 - \log \pi_1$ ), utilizzando una metrica pesata chiamata MWLR (Mixture-Weighted Log-Ratio) per gestire i token a bassa probabilità.
- Esperimenti di Addestramento Controllato: Addestramento di nuovi RM partendo da basi diverse (Llama 3.2 3B e Gemma 2 2B) utilizzando dataset di preferenza identici (Skywork e Unified Feedback) e quantità di dati variabili (da 13k a 632k coppie) per osservare l'evoluzione del bias durante il training.

3. Contributi Chiave

Nuovo metodo di interpretabilità: Sviluppo di una tecnica basata su corpora psicolinguistici per mappare i bias valoriali dei RM.
Dimostrazione empirica dei bias: Evidenza che i RM esistenti mostrano differenze sistematiche nei valori in base al modello base (Llama vs. Gemma).
Tracciamento delle origini: Dimostrazione che questi bias risalgono alle probabilità logaritmiche dei modelli pre-addestrati e instruction-tuned, non solo al fine-tuning.
Modelli di Reward Impliciti: Formulazione della differenza tra modelli base come un reward model implicito, dimostrando che anche questa differenza astratta mostra gli stessi pattern di bias (Agency vs. Communion).
Robustezza e Durabilità: Prove sperimentali che i bias ereditati sono ripetibili e resistenti, persistendo anche dopo l'addestramento su grandi quantità di dati di preferenza.

4. Risultati Principali

Bias Sistematici per Modello Base:
- I RM basati su Llama mostrano una preferenza robusta per parole legate all'Agency (es. "Freedom", "Success", "Ability").
- I RM basati su Gemma mostrano una preferenza robusta per parole legate alla Communion (es. "Love", "Family", "Harmony").
- Questo pattern si osserva sia in prompt positivi ("Qual è la cosa migliore?") che negativi, con un effetto di dimensione media ( $d \approx 0.40$ ).
Origine nel Pretraining:
- L'analisi delle log-probabilità sui modelli base (sia pretraining che instruction-tuned) rivela lo stesso divario Agency/Communion.
- L'analisi del Reward Implicito (MWLR) tra Llama e Gemma mostra che il token "Freedom" è il più preferito da Llama rispetto a Gemma, mentre "Love" è il più penalizzato. Questo divario aumenta con la dimensione del modello (da 1B a 70B).
Dinamiche durante il Fine-tuning:
- Durante l'addestramento dei RM, il divario tra le preferenze di Llama e Gemma si riduce inizialmente ma non si chiude completamente.
- Anche con dataset di preferenza molto grandi (fino a 632k coppie), un divario significativo persiste.
- L'addestramento su Qwen (un altro modello base) ha mostrato un bias verso la Communion ancora più forte di Gemma, che non è stato mitigato nemmeno con 100k+ dati di preferenza.
Impatto sui Token: L'analisi dei token top-k mostra che i RM basati su Gemma tendono a posizionare token di "Communion" nei primi 10, mentre quelli su Llama tendono a posizionare token di "Agency".

5. Significato e Implicazioni

Questo lavoro ribalta la percezione comune secondo cui l'allineamento è un processo che inizia principalmente nella fase di RLHF. Le conclusioni principali sono:

Il Pretraining è Cruciale per l'Etica: Le scelte fatte durante il pretraining (inclusi i dati di addestramento e l'architettura) plasmano le "intuizioni morali" del modello in modo profondo e difficile da sovrascrivere.
Limiti del Fine-tuning: Quantità massive di dati di preferenza possono attenuare, ma non eliminare, i bias ereditati dal modello base. Questo suggerisce che l'allineamento non è solo una questione di "pulizia" post-addestramento, ma richiede un'attenzione preventiva alla fase di pretraining.
Scelta del Modello Base: Per gli sviluppatori open-source, la scelta del modello base non è solo una questione di prestazioni (accuracy, velocità), ma una scelta valoriale. Un modello basato su Llama avrà un'etica intrinsecamente diversa da uno basato su Gemma o Qwen, indipendentemente dal fine-tuning.
Sicurezza e Allineamento: È necessario sviluppare strategie di mitigazione mirate (filtraggio dati, re-weighting, debiasing) già nella fase di pretraining, poiché i Reward Models non sono una "tabula rasa" ma ereditano la struttura valoriale del loro "scheletro" (backbone).

In sintesi, il paper dimostra che i Reward Models non sono neutrali strumenti di valutazione, ma portano con sé le impronte digitali valoriali dei modelli su cui sono costruiti, rendendo il pretraining il punto di partenza fondamentale per qualsiasi sforzo di sicurezza e allineamento etico.

Reward Models Inherit Value Biases from Pretraining

🎭 Il "Seme" della Personalità: Perché i Robot Ricordano la loro Infanzia

🌳 L'Analogia dell'Albero e del Frutto

🔍 Cosa hanno scoperto gli scienziati?

🧪 Il "Lavaggio" non funziona (del tutto)

💡 Perché è importante? (La morale della favola)

In sintesi

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati Principali

5. Significato e Implicazioni

Articoli simili

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma