Immagina di avere un arbitro automatizzato molto intelligente (un'IA) il cui compito è osservare due persone che rispondono a una domanda e decidere chi ha fatto un lavoro migliore. È così che vengono testati molti sistemi di IA moderni oggi: un'IA agisce da giudice per altre IA.

Questo articolo pone una domanda semplice ma complicata: all'arbitro importa la lingua in cui vengono date le risposte, o gli interessa solo la qualità delle risposte?

Pensa a una competizione culinaria. Se due chef preparano esattamente la stessa zuppa deliziosa, ma uno degli chef la presenta in un elegante ristorante francese e l'altro in una tavola calda informale, il giudice assegna un punteggio più alto solo perché la presentazione sembra più "elegante"? O il giudice assaggia la zuppa e si rende conto che sono identiche?

L'esperimento: Il test del "Traduttore di Lingue"

I ricercatori hanno preso un insieme standard di 419 domande e risposte (un benchmark chiamato LLMBar) e le hanno sottoposte a quattro diversi giudici IA. Hanno fatto questo in tre diverse "vesti":

Inglese: La versione originale.
Cinese: Le stesse identiche domande e risposte, ma tradotte perfettamente in cinese.
Code-Switching: Un mix di inglese e cinese (come dire "Please send the email to the manager", mescolando le lingue in modo naturale).

Hanno anche eseguito un test speciale di "spareggio". Hanno preso una risposta perfetta in inglese e la sua traduzione perfetta in cinese e hanno chiesto al giudice di confrontarle. Poiché il contenuto è identico, il giudice dovrebbe dire: "È un pareggio!"

Cosa hanno scoperto

I risultati sono stati un po' sorprendenti e hanno mostrato che i referti non sono così neutrali come spereremmo.

Il "Bias dell'Accento Inglese": Ogni singolo giudice ha performato meglio quando le risposte erano in inglese. Quando le risposte erano in cinese o in un mix di lingue, i giudici commettevano più errori. È come se l'arbitro si confondesse o diventasse meno acuto quando i concorrenti parlano un dialetto diverso, anche se la logica rimane la stessa.
Il problema del "Cambio di Idea" (Flip-Flop): In circa l'11% - 14% dei casi, il giudice ha cambiato idea solo perché la lingua era cambiata.
- Analogia: Immagina che il Giudice A dica: "Lo Chef 1 vince!" quando il menù è in inglese. Ma se gli porgi lo stesso menù tradotto in cinese, il Giudice A improvvisamente dice: "In realtà, lo Chef 2 vince!", anche se il cibo non è cambiato affatto. Questo è chiamato "preference flip" (cambio di preferenza).
Non è solo "l'inglese è meglio": Potresti pensare che i giudici amino semplicemente l'inglese e odino tutto il resto. Ma il test di "spareggio" ha mostrato qualcosa di più complesso. Quando i giudici davvero sceglievano un vincitore tra una risposta in inglese e la sua traduzione in cinese, sceglievano in realtà il cinese più spesso rispetto all'inglese!
- La conclusione: Il problema non è che i giudici preferiscano ciecamente l'inglese. Il problema è che sono instabili. Sono facilmente influenzati dal modo in cui le informazioni vengono presentate, che si tratti della lingua, dell'ordine in cui appaiono le risposte o di un mix di entrambe.

Perché questo è importante

Se stai costruendo un sistema di IA per aiutare le persone in Cina, o per gestire conversazioni in più lingue, non puoi fidarti ciecamente di un giudice addestrato in inglese per essere equo.

Il Giudice "Fragile": Un buon giudice dovrebbe essere come una bilancia solida come una roccia. Se metti lo stesso peso, deve dare la stessa lettura, sia che tu descriva il peso in chilogrammi o in libbre. Questi giudici IA sono più simili a una bilancia traballante; la lettura cambia a seconda di come la tieni.
Il costo della confusione: Poiché i giudici cambiano le loro decisioni così spesso (circa 1 volta su 10), potrebbero accidentalmente classificare un'IA peggiore come vincitrice solo perché il test è stato scritto in una lingua diversa.

La soluzione proposta

Gli autori suggeriscono un nuovo controllo di salute leggero chiamato Judge-LS. Prima di fidarti di un giudice IA per classificare i modelli in un mondo multilingue, dovresti eseguire questo semplice test:

Traduci il test nella lingua di destinazione.
Esegui nuovamente il giudice.
Controlla se il giudice cambia idea.

Se il giudice cambia idea troppo spesso, non è pronto per il compito. È come assumere un arbitro che si confonde davanti a un accento diverso; hai bisogno di un arbitro che giudichi la partita, non la lingua.

In breve: L'articolo dimostra che gli arbitri IA sono attualmente sensibili ai cambiamenti di lingua. Non sono solo "amanti dell'inglese"; sono "osservatori instabili" che devono essere testati per la coerenza prima di poter essere ritenuti affidabili per decidere quale sia la migliore IA.

Riepilogo Tecnico: Il Giudice Preferisce l'Inglese? Valutazione dell'Invarianza al Cambio di Lingua negli LLM-as-a-Judge

1. Definizione del Problema

L'ampia adozione di Large Language Models (LLM) come giudici automatici per la valutazione di istruzioni open-ended introduce una questione critica di affidabilità: il giudice valuta la qualità semantica di una risposta, o la sua preferenza reagisce alla lingua in cui viene presentata la comparazione?

Sebbene l'approccio LLM-as-a-Judge offra una scalabilità e una consapevolezza semantica superiori rispetto alle metriche basate su riferimenti, esso eredita i bias dei modelli generativi. Studi precedenti hanno documentato il bias di posizione, il bias di verbosità e la sensibilità al prompt. Questo articolo isola un fallimento specifico della affidabilità: l'invarianza al cambio di lingua (language-switching invariance). Nello specifico, investiga se un giudice preservi la propria preferenza quando una comparazione a coppie viene presentata in inglese, cinese o in una variante di alternanza tra cinese e inglese, assumendo che la relazione di qualità sottostante (il "gold label") rimanga invariata.

2. Metodologia: Il Protocolo Judge-LS

Gli autori propongono Judge-LS, un protocollo di meta-valutazione leggero e senza necessità di addestramento, progettato per testare l'invarianza al cambio di lingua utilizzando esclusivamente chiamate API.

2.1 Dati di Base e Trasformazione

Dataset: Lo studio utilizza l'intero benchmark LLMBar, composto da 419 item a coppie (un sottoinsieme naturale e quattro sottoinsiemi avversari) con gold label oggettivi che indicano quale risposta segue meglio un'istruzione.
Varianti Linguistiche: Per ogni item, vengono generate tre versioni:
1. EN: La versione originale in inglese.
2. ZH: Una traduzione naturale in cinese semplificato dell'istruzione e di entrambi gli output candidati.
3. LS: Una variante di alternanza tra cinese e inglese (language-switched), che preserva termini tecnici, entità nominate e termini di task in inglese dove appropriato.
Modello di Trasformazione: Viene utilizzato gpt-4.1-mini per la traduzione. Il prompt istruisce esplicitamente il modello a preservare tutti gli errori fattuali, matematici, di formattazione e di rispetto delle istruzioni per garantire che la validità del gold label non sia compromessa da "riparazioni silenziose".
Audit: Un audit automatico verifica la completezza dei campi e segnala le varianti ad alto rischio (es. forte riduzione della lunghezza, discrepanze nei token numerici). 19 item (4,5%) sono stati segnalati, e un'analisi di sensibilità li esclude.

2.1 Design Sperimentale

Giudici: Sono stati valutati quattro modelli accessibili tramite API:
- GPT-4.1 Mini
- Claude Haiku 4.5
- Gemini 2.5 Flash
- DeepSeek V4 Flash
Costruzione del Giudizio: Ogni item viene valutato in tutte e tre le condizioni linguistiche. Per ogni condizione, il giudice riceve sia l'ordine originale che quello invertito delle risposte (A vs B). Inoltre, vengono creati tie-probe equivalenti alla traduzione confrontando la risposta inglese "gold" con la sua traduzione cinese per testare la preferenza linguistica in scenari di "Pareggio" (Tie).
Volume Totale: L'esperimento ha generato 13.408 giudizi unici a coppie riusciti.

2.3 Metriche

Lo studio riporta diverse metriche diagnostiche oltre alla semplice accuratezza:

Strict e Tie-Half Accuracy: Misura l'accordo con i gold label, con la seconda che concede un credito parziale alle predizioni di "Pareggio" (Tie).
Language-Invariance Flip Rate: La percentuale di giudizi in cui la preferenza cambia esclusivamente a causa della trasformazione linguistica (EN vs ZH/LS).
Gold-Correctness Flip Rate: La percentuale di casi in cui un giudizio corretto diventa errato (o viceversa) dopo la traduzione.
Inconsistenza di Posizione: Il tasso con cui il vincitore cambia quando l'ordine delle risposte viene invertito.
Tie-Probe Language Preference: La distribuzione delle vittorie tra inglese e cinese nei tie-probe equivalenti alla traduzione.
Rigore Statistico: Il paper impiega intervalli di confidenza binomiali di Wilson al 95% e test esatti bilaterali di McNemar/binomiali per confronti accoppiati.

3. Risultati Chiave

3.1 Accuratezza e Stabilità

Superiorità dell'Inglese: Tutti e quattro i giudici hanno ottenuto la massima accuratezza in inglese. Ad esempio, la tie-half accuracy di DeepSeek è scesa dal 90,5% (EN) all'87,8% (ZH) e all'88,9% (LS).
Flip Rate Significativi: Le trasformazioni linguistiche hanno indotto inversioni di preferenza in un 10,7% - 14,4% dei casi rispetto all'inglese.
- GPT-4.1 Mini e Claude Haiku sono stati i più sensibili alle traduzioni in cinese (rispettivamente 14,4% e 14,2% di flip rate).
- DeepSeek e Gemini hanno mostrato flip rate inferiori ma comunque sostanziali (~11,1%).
Impatto sulla Correttezza: I gold-correctness flip rate hanno ricalcato da vicino i preference flip rate, indicando che non si tratta di scambi innocui tra una risposta corretta e un pareggio, ma di reali cambiamenti nell'allineamento del giudice con la verità oggettiva. I test di significatività accoppiati hanno rifiutato la simmetria per tutti i confronti modello-lingua ( $p \le 0,011$ ).

3.2 Preferenza Linguistica vs Instabilità

Nessun Bias Sistematico per l'Inglese nei Pareggi: Contrariamente all'ipotesi che i giudici preferiscano intrinsecamente l'inglese, i tie-probe equivalenti alla traduzione sono stati giudicati come "Pareggio" nella stragrande maggioranza dei casi (es. DeepSeek: 97,5%, GPT-4.1 Mini: 95,6%).
Preferenza per il Cinese nei Non-Pareggi: Quando i giudici non dichiaravano un pareggio, tendevano maggiormente a favorire la versione in Cinese rispetto a quella in Inglese. Ciò suggerisce che il problema non sia un semplice prior "English-first", ma piuttosto un'instabilità nel modo in cui i giudici elaborano diverse presentazioni linguistiche.

3.3 Interazione con il Bias di Posizione

Il Cambio di Lingua Amplifica la Sensibilità di Posizione: L'inconsistenza di posizione (cambio del vincitore quando l'ordine viene invertito) è aumentata significativamente nelle condizioni di lingua alternata (LS).
- L'inconsistenza di posizione media è salita dal 12,1% (EN) al 18,1% (LS) tra i vari modelli.
- Gemini Flash ha mostrato l'incremento maggiore, dal 10,3% (EN) al 22,2% (LS).
Difficoltà Avversaria: I sottoinsiemi avversari (es. Adv-GPTOut) hanno mostrato un'accuratezza inferiore e flip rate più elevati, suggerendo che le trasformazioni linguistiche aggiungano uno strato di difficoltà a compiti di ragionamento già complessi.

4. Contributi

Protocollo Judge-LS: Introduzione di un protocollo semplice e a basse risorse per testare l'invarianza al cambio di lingua nella valutazione LLM-as-a-Judge senza addestramento del modello.
Benchmarking Completo: Trasformazione dell'intero benchmark LLMBar di 419 item in varianti inglesi, cinesi e di alternanza linguistica con preservazione dei gold label.
Valutazione su Larga Scala: Valutazione di quattro diversi giudici API attraverso 13.408 giudizi, inclusi scambi di ordine delle risposte e tie-probe equivalenti alla traduzione.
Framework Diagnostico: Report di un set multidimensionale di metriche, inclusi flip rate, inconsistenza di posizione, stime di incertezza e analisi di sensibilità che escludono varianti meccanicamente rischiose.

5. Significato e Rivendicazioni

Il paper sostiene che il rischio centrale nella valutazione multilingue degli LLM non sia necessariamente che i giudici "preferiscano l'inglese", ma che siano sensibili alla presentazione linguistica in modi che alterano la correttezza e interagiscono con il bias di posizione.

Implicazione sulla Affidabilità: Un flip rate del 10-14% è sufficientemente grande da alterare le classifiche dei modelli quando i punteggi sono vicini. Se una classifica utilizza un prompt di giudizio in inglese per valutare risposte in cinese o in modalità alternata, le prestazioni riportate potrebbero confondere la qualità della risposta con la sensibilità linguistica del giudice.
Principio di Design: Le pipeline di valutazione dovrebbero essere trattate come sistemi sotto test. Un giudice robusto deve preservare le preferenze fondamentali sotto trasformazioni superficiali che preservano l'etichetta, similmente a come i classificatori robusti devono gestire perturbazioni irrilevanti dell'input.
Workflow Pratico: Gli autori raccomandano un workflow in cinque fasi per la valutazione multilingue: (1) valutazione baseline in inglese con scambi di ordine, (2) trasformazione nelle lingue target, (3) audit e analisi di sensibilità, (4) calcolo dei flip di invarianza con intervalli di confidenza, e (5) tie-probe per distinguere il bias dall'instabilità.

Lo studio conclude che gli attuali giudici LLM non sono ancora invarianti alla presentazione linguistica, e fare affidamento su una singola condizione linguistica per la selezione di modelli multilingue è una pratica fragile.

Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge