Diverging Preferences: When do Annotators Disagree and do Models Know?

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un chef di lusso (il tuo modello di intelligenza artificiale) che cucina per milioni di persone ogni giorno. Il suo obiettivo è cucinare piatti che piacciano a tutti. Ma c'è un problema: quando gli chef umani (gli annotatori) assaggiano due piatti diversi, spesso non sono d'accordo su quale sia il migliore.

A volte, uno chef dice: "Questo è troppo salato!", mentre un altro dice: "È perfetto!".
A volte, uno preferisce un piatto lungo e dettagliato, mentre un altro vuole qualcosa di breve e diretto.

Questo articolo, scritto da un gruppo di ricercatori, si chiede: Perché le persone non sono d'accordo? E il nostro chef robot sa come gestire queste opinioni diverse?

Ecco la spiegazione semplice, divisa in tre atti:

1. Il Problema: Non è solo "Rumore", è Gusto Personale

Fino a poco tempo fa, gli scienziati pensavano che quando due persone non erano d'accordo su quale risposta fosse migliore, fosse colpa di un "errore" o di un "rumore" casuale. Pensavano: "Se non sono d'accordo, uno dei due deve aver sbagliato a votare".

I ricercatori hanno scoperto che non è così.
Hanno analizzato migliaia di casi e hanno creato una "mappa dei gusti" (una tassonomia). Hanno scoperto che la maggior parte dei disaccordi non sono errori, ma differenze legittime di stile e preferenze.

Ecco le cause principali, con le loro analogie:

Il compito non è chiaro (Task Underspecification): È come se un cliente dicesse allo chef: "Fammi qualcosa di buono". Uno chef fa un risotto, l'altro una pasta. Entrambi hanno ragione, ma il cliente non aveva specificato abbastanza.
Lo stile di risposta (Verbosity & Format): Alcuni clienti amano i menu descrittivi e lunghi (molte parole), altri vogliono solo l'elenco degli ingredienti (brevi). Non c'è un "giusto", c'è solo un "preferito".
Il gusto estetico: Come preferire la musica classica al jazz. È una questione di gusto personale, non di fatto.
I rifiuti (Safety): A volte un cliente chiede qualcosa di pericoloso (es. "Come costruisco una bomba?"). Uno chef dice "No, non lo faccio", un altro dice "Ecco come si fa, ma stai attento". Chi ha ragione? Dipende dalle regole di sicurezza che si vogliono seguire.

La scoperta: Il 30% delle volte, le persone non sono d'accordo. E il 75% di questi disaccordi è dovuto a preferenze personali, non a errori.

2. L'Errore degli Chef Robot: "La Maggioranza Vince Sempre"

Ora, immagina che il nostro chef robot (il modello di intelligenza artificiale) impari a cucinare guardando i voti degli chef umani.
Il metodo attuale funziona così: prende il voto della maggioranza. Se 3 chef su 5 dicono "Piatto A è meglio", il robot impara che il Piatto A è il migliore assoluto.

Il problema: Se le preferenze sono divise (es. 2 chef amano il Piatto A, 2 amano il Piatto B, 1 è indeciso), il robot attuale ignora il conflitto. Decide comunque che uno dei due piatti è "il migliore" e impara a cucinare solo quello stile.
Risultato? Il robot diventa un chef che piace solo a un tipo di cliente, ignorando gli altri. Perde la capacità di essere "pluralistico" (di accontentare gusti diversi).

Inoltre, quando si usa un altro robot per giudicare i piatti (chiamato "LLM-as-Judge"), questo giudice tende a punire i piatti che fanno cose diverse (come chiedere chiarimenti al cliente o rifiutare richieste pericolose), preferendo sempre la risposta che sembra più "decisa" e sicura, anche se non è quella che tutti vorrebbero.

3. La Soluzione: Un Gusto che Varia

I ricercatori propongono un nuovo modo di insegnare allo chef robot. Invece di dire: "Il Piatto A vale 5 stelle", dovrebbero dire: "Il Piatto A piace molto a chi ama il dolce, ma meno a chi preferisce il salato".

Hanno creato un nuovo tipo di modello chiamato "Reward Model Distribuzionale" (Modelli di Ricompensa Distribuiti).

Vecchio metodo: Assegna un numero fisso (es. 8/10).
Nuovo metodo: Assegna una distribuzione di probabilità (una curva). Immagina una curva che mostra quanto il piatto piace a diversi tipi di persone. Se la curva è alta e stretta, tutti sono d'accordo. Se la curva è piatta e larga, significa che i gusti sono molto divisi.

Perché è utile?

Riconosce i conflitti: Il robot impara a dire: "Qui le opinioni sono divise, non c'è una risposta perfetta per tutti".
Evita bias: Quando si valutano i robot, si possono rimuovere le domande che creano conflitti inevitabili (come quelle di sicurezza o ambigue), così da non punire i robot che cercano di essere prudenti o chiari.

In Sintesi

Questo studio ci dice che non tutti pensano allo stesso modo, e i nostri computer dovrebbero imparare a rispettarlo.
Invece di cercare una "verità assoluta" su quale risposta sia la migliore, dovremmo insegnare all'IA a capire che esistono molte verità, a seconda di chi la guarda.

È come se invece di un giudice che decide chi vince la gara di cucina, avessimo un sommelier che sa dire: "Questo vino è perfetto per chi ama i rossi corposi, ma se cerchi qualcosa di leggero, provi quell'altro". In questo modo, l'intelligenza artificiale diventa più gentile, più inclusiva e più utile per tutti noi.

Each language version is independently generated for its own context, not a direct translation.

Titolo

Preferenze Divergenti: Quando gli Annotatori Non Sono d'Accordo e i Modelli lo Sanno?

1. Il Problema

Con l'ascesa dei Large Language Models (LLM) e la loro adozione su larga scala, è diventato cruciale garantire un allineamento "pluralistico", ovvero la capacità del sistema di servire equamente utenti con preferenze diverse. Attualmente, l'addestramento degli LLM si basa sul Reinforcement Learning from Human Feedback (RLHF), che utilizza dataset di preferenze umane.

Tuttavia, un'assunzione fondamentale nei metodi di reward modeling (modellazione della ricompensa) è che le discrepanze tra gli annotatori umani siano semplici "rumore" (errori di annotazione) che possono essere risolti tramite votazione a maggioranza. Questo studio sfida tale assunzione, dimostrando che le preferenze divergenti sono spesso il risultato di legittime differenze individuali, stili di risposta o ambiguità nel prompt, e non errori. I modelli attuali, addestrati per prevedere una singola risposta "migliore", falliscono nel catturare questa diversità, portando a un allineamento che favorisce una singola prospettiva a discapito di altre.

2. Metodologia

Dataset e Tassonomia

Gli autori hanno introdotto due dataset basati su annotazioni esistenti (MultiPref e HelpSteer2), rendendo disponibili le singole annotazioni degli annotatori (invece delle sole medie aggregate) per analizzare i casi di disaccordo.
Hanno sviluppato una tassonomia delle cause di disaccordo che copre 10 categorie raggruppate in 4 classi principali:

Task Underspecification: Ambiguità nel prompt che porta a interpretazioni valide ma diverse.
Response Style: Differenze legate allo stile (es. verbosità, formato, complessità tecnica, gusto estetico).
Refusals: Disaccordi su quando rifiutare una richiesta (sicurezza, capacità) o su come formulare il rifiuto.
Errors: Allucinazioni o errori di contenuto che non sono sempre unanimemente riconosciuti come tali.

Analisi dei Modelli Esistenti

Gli autori hanno valutato i metodi standard di reward modeling (Bradley-Terry e Regressione MSE) sia su dati aggregati (voto a maggioranza) che su tutte le annotazioni individuali. Hanno misurato quanto questi modelli favoriscono una singola risposta anche quando gli annotatori sono in forte disaccordo, dimostrando che i modelli standard trattano le preferenze divergenti esattamente come le preferenze ad alto accordo, assegnando differenze di ricompensa elevate.

Proposta: Modelli di Ricompensa Distribuzionali

Per risolvere il problema, gli autori propongono di modellare la ricompensa non come un valore scalare singolo, ma come una distribuzione di probabilità (specificamente una distribuzione normale $N(\mu, \sigma^2)$ ).

$\mu$ (Media): Rappresenta la preferenza media degli annotatori.
$\sigma^2$ (Varianza): Rappresenta il grado di disaccordo o "divisività" della risposta tra gli annotatori.

Hanno sviluppato due approcci principali:

Mean-Var Reward Models (KL): Predicono media e varianza utilizzando una funzione di perdita basata sulla Divergenza di Kullback-Leibler (KL) per mappare le distribuzioni predette sulle etichette degli annotatori.
Classification-based Reward Models: Classificano la distribuzione delle punteggi Likert (1-5) assegnati dagli annotatori.

Valutazione LLM-as-Judge

Hanno analizzato come i metodi di valutazione "LLM-as-Judge" (dove un LLM giudica le risposte di altri LLM) si comportano in scenari di disaccordo. Hanno scoperto che questi sistemi tendono a imporre un vincitore anche quando gli umani sono in disaccordo, penalizzando modelli che adottano strategie pluralistiche (come chiedere chiarimenti su prompt ambigui o rifiutare richieste pericolose in modo diverso).

3. Risultati Chiave

Frequenza del Disaccordo: Oltre il 30% degli esempi nei dataset analizzati mostra preferenze divergenti tra gli annotatori.
Natura del Disaccordo: Oltre il 75% dei disaccordi è dovuto a fattori come complessità, verbosità, stile o ambiguità del prompt, e non a errori di annotazione.
Fallimento dei Modelli Standard: I modelli di reward standard (Bradley-Terry, MSE) non riescono a distinguere tra casi di alto accordo e casi di disaccordo. Predicono differenze di ricompensa elevate anche quando gli annotatori sono in disaccordo, portando a un addestramento RLHF che non riconosce la diversità delle opinioni.
Efficacia dei Modelli Distribuzionali: I nuovi modelli di reward distribuzionali (Mean-Var con KL) hanno dimostrato di poter identificare le preferenze divergenti con successo. Hanno ottenuto un miglioramento di 0.16 nell'AUROC rispetto ai modelli standard nel compito di identificare casi di disaccordo significativo, mantenendo al contempo un'accuratezza nella previsione della preferenza media comparabile.
Bias negli LLM-as-Judge: Le valutazioni LLM-as-Judge mostrano un bias sistematico:
- Preferiscono risposte che compongono (rispondono alla richiesta) rispetto a quelle che rifiutano (anche per motivi di sicurezza o capacità), anche quando gli umani sono divisi.
- Preferiscono risposte che offrono una soluzione diretta ("Overton") rispetto a quelle che chiedono chiarimenti su prompt ambigui.
- Questo porta a penalizzare modelli allineati pluralisticamente che seguono policy coerenti di rifiuto o chiarimento.

4. Contributi Principali

Analisi Empirica e Tassonomia: Dimostrazione empirica che i disaccordi nelle preferenze umane sono prevalentemente dovuti a preferenze opposte e non a rumore, supportata da una nuova tassonomia dettagliata delle cause.
Nuovi Modelli di Reward: Introduzione di modelli di reward distribuzionali che apprendono non solo la preferenza media, ma anche la varianza (divisività), permettendo di identificare casi in cui le preferenze divergono.
Identificazione di Bias nelle Valutazioni: Rivelazione del fatto che i benchmark "LLM-as-Judge" attuali penalizzano ingiustamente i sistemi allineati pluralisticamente.
Metodologia di Pulizia dei Benchmark: Proposta di un metodo per identificare ed eliminare esempi "divisivi" dai benchmark di valutazione, suggerendo che le valutazioni delle capacità generali dovrebbero concentrarsi solo su casi di alto accordo tra gli annotatori.

5. Significato e Impatto

Questo lavoro è fondamentale per lo sviluppo futuro degli LLM. Sposta il paradigma dalla ricerca di una "verità" unica nelle preferenze umane al riconoscimento della pluralità delle opinioni.

Per l'Addestramento: Suggerisce che l'RLHF dovrebbe essere modificato per gestire la varianza nelle preferenze, addestrando modelli che possono adattarsi a diverse visioni del mondo o che riconoscono quando una risposta è soggettiva.
Per la Valutazione: Mette in guardia contro l'uso acritico dei benchmark LLM-as-Judge, che potrebbero favorire modelli con uno stile specifico o una politica di sicurezza rigida, scoraggiando l'allineamento etico e pluralistico.
Per la Sicurezza e l'Etica: Sottolinea che le decisioni su cosa sia "sicuro" o "accettabile" sono spesso soggettive; i modelli dovrebbero essere in grado di navigare queste sfumature invece di imporre una visione maggioritaria che potrebbe non essere rappresentativa di tutti gli utenti.

In sintesi, il paper fornisce gli strumenti teorici e pratici per costruire sistemi di IA che non solo rispondono bene, ma comprendono e rispettano la diversità delle preferenze umane.