Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un gruppo di amici molto intelligenti, tutti laureati in materie diverse, e di chiedere loro la stessa domanda difficile: "Qual è la capitale del Perù?". Se chiedi a uno solo, potrebbe sbagliare. Ma se chiedi a tutti e prendi la risposta più frequente (la "votazione"), la logica dice che la risposta giusta uscirà quasi sempre. Questo è il principio della "Saggezza delle Folle": se tutti pensano in modo indipendente, gli errori si annullano a vicenda e la verità emerge.

Un gruppo di ricercatori ha voluto vedere se questo trucco funzionasse anche con le Intelligenze Artificiali (LLM), chiedendo loro di rispondere a domande su fatti, logica o previsioni future, senza avere un "controllore" esterno che dica se la risposta è giusta o sbagliata (come un correttore automatico per la matematica).

Ecco cosa hanno scoperto, spiegato in modo semplice:

1. Il problema: Non sono amici diversi, sono "cugini"

Il segreto della Saggezza delle Folle umana è che noi abbiamo esperienze diverse. Io ho letto un libro, tu ne hai visto un altro, lui ha viaggiato. I nostri errori sono casuali e diversi.

Le Intelligenze Artificiali, invece, sono come fratelli gemelli cresciuti nella stessa casa. Sono state addestrate sugli stessi libri, gli stessi siti web e gli stessi dati. Se imparano un errore (una "bugia" o un malinteso), lo imparano tutte insieme.

L'analogia: Immagina di chiedere a 100 persone che hanno letto esattamente lo stesso libro di fantasia, scritto da un autore che ha sbagliato un nome di un personaggio, di dire il nome corretto. Non otterrai la verità; otterrai 100 persone che ripetono lo stesso errore con sicurezza.

2. Il test: Chiedere cose che nessuno sa

Per provare che non è solo un problema di "conoscenza condivisa", i ricercatori hanno fatto un esperimento pazzesco. Hanno dato alle AI delle stringhe di caratteri casuali (tipo gP%!mdq4k'q=T/rp) e hanno chiesto: "Scegli tra A, B, C o D".
Non c'era nessuna risposta giusta! Era un gioco di fortuna.
Eppure, le diverse AI hanno iniziato a scegliere le stesse lettere (A o B) più spesso di quanto ci si aspetterebbe per caso.

Cosa significa? Le AI non stanno solo condividendo fatti; hanno una "struttura mentale" (bias induttivi) identica. Quando non sanno la risposta, tendono a indovinare nello stesso modo.

3. La trappola della "Fiducia"

Le AI spesso dicono: "Sono sicuro al 99% che la risposta sia X". Pensavamo che se un'AI era molto sicura, avesse ragione.
Il paper scopre che la sicurezza non significa verità. Significa solo che l'AI è sicura che tutte le altre AI diranno la stessa cosa.

L'analogia: Immagina un'aula scolastica dove tutti gli studenti hanno copiato la stessa risposta sbagliata dal quaderno del compagno. Se il professore chiede: "Chi è sicuro della sua risposta?", tutti alzeranno la mano con il 100% di sicurezza. Ma la risposta è comunque sbagliata. L'AI è brava a prevedere cosa dirà la "folla", ma non a trovare la verità.

4. Il risultato finale: Più campioni, più errori

I ricercatori hanno provato a far rispondere le AI 25 volte più del solito, sperando che la "votazione" correggesse gli errori.

Risultato: Niente. La precisione non è migliorata. Anzi, a volte è peggiorata.
Perché? Perché invece di cancellare gli errori, la votazione ha solo amplificato l'errore comune. Se tutte le AI pensano che la capitale del Perù sia "Lima" (giusto) ma su una domanda difficile pensano tutte che sia "Bogotà" (sbagliato), la votazione dirà con grande sicurezza che la risposta è "Bogotà".

In sintesi: La lezione per il futuro

Il paper ci dice una cosa molto importante per il futuro dell'IA:
Non puoi risolvere un problema di "verità" chiedendo semplicemente più volte la stessa cosa.

Se vuoi che l'IA sia corretta su argomenti dove non c'è un controllo automatico (come la medicina, la legge o le notizie):

Non basta farle ragionare di più (più "calcolo").
Non basta farle votare tra loro.
Devi darle strumenti esterni (come cercare su Google, usare calcolatrici, o avere un umano che controlla).

La morale della favola:
Chiedere a un gruppo di AI di votare per trovare la verità è come chiedere a un coro di cantare la nota giusta: se tutti hanno lo stesso spartito sbagliato, il coro sarà bellissimo, armonioso e sicuro di sé, ma stonerà tutti insieme. Per trovare la verità, serve qualcuno che abbia uno spartito diverso o un orecchio esterno che dica: "Ehi, quella nota è stonata!".

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'articolo affronta una questione fondamentale nell'ottimizzazione dei Large Language Models (LLM): è possibile scalare la veridicità (truthfulness) di un modello aumentando la potenza di calcolo al momento dell'inferenza (inference-time scaling) in assenza di un verificatore esterno?

Mentre tecniche come il self-consistency (campionamento multiplo e votazione a maggioranza) hanno dimostrato grande successo in domini verificabili (come matematica e codice), dove un verificatore esterno può filtrare le risposte errate, la domanda aperta è se queste strategie funzionino in domini non verificabili (fatti, ragionamento di senso comune, previsioni). L'intuizione comune, mutuata dalla "saggezza delle folle" (wisdom-of-crowds), suggerisce che aggregare molte risposte imperfette dovrebbe cancellare gli errori individuali e rivelare la verità. Gli autori testano questa ipotesi.

2. Metodologia

Gli autori hanno condotto un'analisi empirica rigorosa su cinque modelli open-source (dalle famiglie Gemma, GPT-oss e Qwen, con dimensioni da 4B a 235B parametri) e quattro benchmark privi di verificatori esterni:

Com2Sense: Ragionamento di senso comune binario.
Humanity's Last Exam (HLE): Domande di livello esperto.
BoolQ: Risposta a domande fattive binarie.
Predict-the-Future: Un nuovo benchmark di previsioni su eventi successivi alla data di cutoff della conoscenza dei modelli.

Protocollo Sperimentale:

Campionamento: Per ogni domanda, sono stati generati 25 campioni indipendenti per modello a temperature moderate-alte ( $T \in \{0.7, 1.0\}$ ) per garantire diversità.
Strategie di Aggregazione: Sono state testate cinque regole di selezione interna:
1. Voto a maggioranza (Majority Vote).
2. Scelta basata sulla massima auto-valutazione di confidenza (Highest Confidence).
3. Voto pesato per la confidenza (Confidence-Weighted Vote).
4. Voto pesato per la popolarità prevista (Prediction-Weighted Vote).
5. Algoritmo "Surprisingly Popular" (SP), che seleziona la risposta la cui supporto osservato supera quello previsto.
Controllo Negativo: Per isolare la correlazione strutturale dalla condivisione di conoscenze, è stato introdotto un test in cui ai modelli venivano fornite stringhe ASCII casuali senza alcuna verità sottostante, chiedendo loro di scegliere tra opzioni multiple.

3. Contributi Chiave e Risultati

A. Fallimento dell'Aggregazione nella Veridicità

Nonostante un aumento significativo del costo computazionale (fino a 25 volte rispetto al campionamento singolo), nessuna strategia di aggregazione ha migliorato in modo consistente l'accuratezza rispetto alla baseline a singolo campione. In alcuni casi, l'aggregazione ha addirittura peggiorato le prestazioni o amplificato errori condivisi. Nel benchmark di previsioni, tutte le strategie hanno operato al livello del caso (chance).

B. Correlazione Strutturale degli Errori

Il risultato centrale è che gli errori dei LLM sono fortemente correlati, violando l'assunzione fondamentale di indipendenza richiesta dalla saggezza delle folle.

Quando i modelli sbagliano, tendono a convergere sulla stessa risposta errata.
Questa correlazione persiste anche tra modelli di famiglie diverse e diverse architetture, suggerendo che deriva da bias induttivi condivisi e dati di addestramento sovrapposti, non solo da conoscenze fattive comuni.
Evidenza dal Controllo Negativo: Anche quando forniti con stringhe casuali senza alcuna "verità", i modelli mostrano una correlazione positiva significativa (fino a 0.35) nelle loro scelte. Questo dimostra che la correlazione è intrinseca alla struttura del modello e non dipende dalla conoscenza del mondo.

C. Segnali Interni Inaffidabili

I segnali interni utilizzati per l'aggregazione non distinguono la verità dal consenso:

Confidenza: L'auto-valutazione della confidenza è scarsamente correlata alla correttezza, ma fortemente correlata all'accordo con gli altri modelli. I modelli sono spesso sicuri di risposte sbagliate (sycophancy).
Algoritmo Surprisingly Popular (SP): Questo metodo fallisce perché le popolazioni di LLM non possiedono una struttura di "minoranza esperta" stabile. Il segnale di "sorpresa" (la differenza tra ciò che la gente pensa e ciò che la gente dice che penserà) non è stabile tra i task e talvolta è anti-correlato con la verità.

D. Separazione tra Predizione Sociale e Verifica della Verità

Gli autori identificano una distinzione fondamentale: i modelli sono molto bravi a predire cosa dirà la folla (predizione sociale), ma molto meno bravi a identificare cosa è vero (verifica della verità). Le strategie di aggregazione ottimizzano la prima, non la seconda. Quando la folla è sistematicamente sbagliata, questi segnali diventano fuorvianti.

4. Significato e Implicazioni

Il paper delimita un confine critico per lo scaling dell'inferenza:

Domini Verificati: L'aumento del calcolo (più campioni) funziona perché un verificatore esterno può filtrare le opzioni errate.
Domini Non Verificati: L'aumento del calcolo senza un verificatore esterno non scala la veridicità. Aggiungere più campioni da uno stesso "prior epistemico" (modelli addestrati su dati simili) semplicemente rafforza le misconcezioni condivise, aumentando la certezza senza aumentare la correttezza.

Conclusione:
La "saggezza della folla" non è un sostituto della verifica. Per migliorare la veridicità in domini non verificabili, non basta generare più campioni o aggregare più modelli simili. Sono necessarie interruzioni strutturali degli errori correlati, come:

Integrazione di verificatori esterni (retrieval, esecuzione di codice, feedback umano).
Creazione di una vera diversità epistemica (addestramento su dati disgiunti o obiettivi diversi).
Apprendimento di verificatori espliciti basati su evidenze esterne.

Questo studio avverte contro l'approccio ingenuo di "lanciare più potenza di calcolo" al problema della veridicità senza meccanismi di verifica esterni, sottolineando che la convergenza del consenso non è una prova di verità.