Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Questo studio evidenzia come i modelli di linguaggio di grandi dimensioni (LLM) utilizzati come giudici automatizzati mostrino una significativa instabilità nei punteggi numerici assegnati a input identici, variando in base al modello, alla famiglia e alla temperatura, il che solleva preoccupazioni critiche per l'affidabilità operativa e la riproducibilità nei flussi di lavoro aziendali.

Fiona Lau

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎭 Il Giudice che Cambia Idea: Perché l'Intelligenza Artificiale non è sempre affidabile

Immagina di avere un giudice d'eccezione per la tua azienda. Questo giudice è un'intelligenza artificiale (un "cervello digitale" molto potente) che deve valutare le risposte date da un assistente virtuale ai clienti. Il suo compito è dare un voto da 0 a 10 su tre cose:

  1. Rilevanza: Ha risposto alla domanda giusta?
  2. Accuratezza: Le informazioni sono vere?
  3. Completezza: Ha detto tutto quello che serviva?

Fino a poco tempo fa, pensavamo che questo "giudice digitale" fosse come un computer: se gli dai lo stesso compito due volte, dovrebbe dare lo stesso risultato. Ma questo studio di Fiona Lau scopre che non è così.

Ecco cosa è successo, spiegato con delle metafore quotidiane.

1. Il Giudice "Sbronzo" vs il Giudice "Sobrio" (La Temperatura)

Nel mondo dell'IA, c'è un interruttore chiamato "Temperatura".

  • Temperatura alta (1): È come se il giudice avesse bevuto un caffè doppio. È creativo, imprevedibile, a volte geniale, ma spesso cambia idea.
  • Temperatura zero (0): È come se il giudice fosse seduto alla scrivania, lucido e determinato. Dovrebbe essere meccanico e ripetere sempre la stessa cosa.

La scoperta shock: Anche quando abbiamo messo il giudice "sobrio" (temperatura zero), ha comunque cambiato voto!
Se chiedevi allo stesso modello di giudicare la stessa risposta 10 volte di fila, a volte dava un 10, altre volte un 7, e a volte un 3. È come se chiedessi a un amico sobrio di giudicare una pizza: la prima volta dice "ottima", la seconda "buona", la terza "mediocre". Non è logico, ed è pericoloso per un'azienda.

2. Il Giudice "Generoso" vs il Giudice "Avaro" (Differenze tra Modelli)

Lo studio ha messo alla prova cinque giudici diversi (fatti da aziende diverse: OpenAI, Google, Anthropic).

  • Il Giudice Google (Gemini): Tende a essere molto generoso. Se la risposta è "abbastanza buona", lui le dà un 10.
  • Il Giudice Anthropic (Claude): È molto severo. Se la risposta non è perfetta, le dà un 3.
  • Il Giudice OpenAI (GPT): Sta nel mezzo, ma è molto instabile.

Il problema: Se la tua azienda usa il Giudice Google, un cliente riceve un'ottima valutazione. Se usi il Giudice Claude per lo stesso cliente, lo stesso lavoro viene bocciato. È come se due ispettori sanitari visitassero lo stesso ristorante: uno dice "5 stelle", l'altro "chiusura immediata". Chi ha ragione? Nessuno dei due è coerente.

3. Il "Muro" della Completezza

C'è un criterio che ha fatto impazzire tutti i giudici: la Completezza.
Immagina di chiedere: "Come si fa a cambiare la ruota dell'auto?".

  • Se il giudice deve dire se la risposta è rilevante, è facile: "Sì, parla di ruote".
  • Se deve dire se è completa, diventa difficile. "Ha detto di usare il cric? Sì. Ha detto di allentare i bulloni? Sì. Ma ha detto di non dimenticare il cuneo di sicurezza? Forse no".

Lo studio ha scoperto che su questo punto, i giudici digitali sono molto confusi. Cambiano voto ogni volta che provi a chiedere la stessa cosa. È come se avessero un muro invisibile che non riescono a scalare in modo coerente.

4. Perché è un problema per le aziende?

Immagina un sistema automatico che decide cosa fare con le email dei clienti:

  • Se il voto è alto, l'email va al reparto "Vip" (risposta veloce).
  • Se il voto è basso, l'email va in coda o viene ignorata.

Se l'IA è instabile, due clienti identici potrebbero avere destini opposti.

  • Il Cliente A invia una richiesta. L'IA (al primo tentativo) le dà un voto basso -> la sua richiesta viene ignorata.
  • Il Cliente B invia la stessa identica richiesta. L'IA (al secondo tentativo) le dà un voto alto -> la sua richiesta viene risolta subito.

Questo crea ingiustizia, confusione e rischi legali. Non puoi costruire un sistema affidabile su un giudice che cambia idea ogni 5 minuti.

🏁 La Conclusione: Cosa dobbiamo fare?

Il messaggio finale dello studio è semplice: Non fidatevi ciecamente dell'IA come giudice.

  1. Non è un orologio: Anche con le impostazioni "perfette" (temperatura zero), l'IA non è mai 100% prevedibile.
  2. Controllate la coerenza: Le aziende non dovrebbero guardare solo la "media" dei voti, ma quanto questi voti oscillano. Un modello che dà sempre un 6 è meglio di uno che dà un 10 e un 2 a caso.
  3. Serve un umano al volante: Per le cose importanti, l'IA deve essere aiutata da un essere umano o da un secondo sistema di controllo per assicurarsi che non stia "sognando" voti diversi ogni volta.

In sintesi: l'IA è un assistente fantastico, ma se la usi come un giudice severo per prendere decisioni importanti, devi tenerle d'occhio, perché potrebbe cambiare idea senza nemmeno accorgersene.