Semantic Invariance in Agentic AI

Each language version is independently generated for its own context, not a direct translation.

🧠 Il "Test del Camaleonte": Perché i modelli AI più grandi non sono sempre i più affidabili

Immagina di avere un genio matematico (un'intelligenza artificiale) che deve risolvere un problema complesso. Finora, abbiamo sempre chiesto al genio: "Quanto è bravo a risolvere questo problema?" e abbiamo dato un voto basato sulla risposta corretta.

Ma questo nuovo studio si chiede una domanda diversa e molto più importante: "Se cambio il modo in cui ti chiedo il problema, il genio cambia ancora la risposta?"

🎭 L'Analogia del "Problema Vestito Diverso"

Pensa a un problema matematico come a un vestito.

Versione A: Il vestito è un abito da sera formale (linguaggio accademico).
Versione B: Il vestito è una tuta da ginnastica (linguaggio aziendale o colloquiale).
Versione C: Il vestito è stato stirato in modo diverso o i bottoni sono spostati (i fatti sono riordinati).

Il contenuto è lo stesso: è sempre lo stesso problema. Un vero esperto dovrebbe dare la stessa soluzione indipendentemente da come è vestito il problema.

Il problema è che le attuali Intelligenze Artificiali (i modelli LLM) sono come studenti molto intelligenti ma un po' nervosi. Se cambi il vestito del problema, anche se il significato è identico, lo studente potrebbe andare in panico, confondersi e dare una risposta sbagliata. Questo è quello che gli autori chiamano mancanza di "invarianza semantica".

🔍 Cosa hanno fatto gli scienziati? (Il "Test Metamorfico")

Invece di usare i soliti esami standard (dove le domande sono sempre scritte allo stesso modo), hanno creato un laboratorio di trasformazione. Hanno preso 19 problemi scientifici (fisica, matematica, economia) e li hanno "truccati" in 8 modi diversi:

Riscrittura: Cambiare le parole ma mantenere il senso.
Riordino: Mettere i fatti in ordine diverso.
Espansione/Contrazione: Aggiungere dettagli inutili o togliere parole superflue.
Cambio di contesto: Dire "Immagina di essere un professore" o "Immagina di essere un manager".
Contrasto: Aggiungere scenari falsi o distrattori per vedere se l'AI si distrae.

Hanno poi fatto fare questi test a 7 diversi modelli AI (alcuni piccolissimi, altri enormi) per vedere chi rimaneva calmo e chi andava in crisi.

📉 La Grande Sorpresa: Più grande non significa più forte!

Qui arriva il colpo di scena che ribalta tutto ciò che pensavamo.

L'idea sbagliata: Pensavamo che un modello con 400 miliardi di parametri (un "gigante") fosse più robusto e affidabile di uno con 30 miliardi (un "piccolo").
La realtà: È successo l'opposto!
- I giganti (come i modelli Hermes o GPT-oss grandi) sono diventati più fragili. Quando hanno cambiato il "vestito" del problema, hanno iniziato a sbagliare di più. Sembrano macchine troppo complesse che si confondono con le variazioni.
- Il piccolo modello (Qwen3-30B) è stato il campione di stabilità. Ha dato la stessa risposta corretta nel 79,6% dei casi, anche quando il problema era stato riscritto o riordinato. È come un atleta che, anche se più piccolo, mantiene la postura perfetta sotto stress, mentre il gigante barcolla.

🚩 Le "Fragilità" di Famiglia

Ogni famiglia di modelli ha i suoi "punti deboli" specifici, come se avessero delle allergie diverse:

I modelli "Hermes": Sono bravi, ma vanno in tilt se gli metti davanti un confronto (es: "Ecco la soluzione A, ma guarda anche la B..."). Si confondono con le alternative.
I modelli "DeepSeek": Se cambi l'ordine dei fatti nella domanda, si perdono. Sembrano dipendere dalla sequenza esatta delle parole.
I modelli "gpt-oss": Sono i più instabili. Cambiano risposta quasi a caso se il problema viene riformulato in modo diverso.
I modelli "Qwen3": Sono i più equilibrati. Soprattutto il modello piccolo, che ha mostrato una resistenza incredibile.

💡 Perché questo è importante per noi?

Immagina di usare un'AI per:

Fare una diagnosi medica.
Gestire i soldi di un'azienda.
Guidare un'auto a guida autonoma.

Se l'AI è come uno studente nervoso che cambia risposta solo perché hai usato una parola diversa invece di un'altra, non è sicura.

La lezione principale:
Non scegliere un'AI solo perché è la più grande o quella che prende il voto più alto nei test standard. Se vuoi affidabilità nel mondo reale (dove le domande arrivano in mille forme diverse), devi scegliere quella che è robusta, anche se è più piccola.

In sintesi: Non guardare solo la grandezza del motore, guarda quanto è stabile la macchina quando la strada cambia.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'integrazione dei Modelli Linguistici di Grande Dimensione (LLM) come agenti autonomi per il ragionamento in applicazioni critiche (diagnosi medica, supporto decisionale finanziario, sistemi scientifici) richiede un livello di affidabilità che va oltre le semplici metriche di accuratezza.
Il problema centrale identificato dagli autori è la mancanza di invarianza semantica: gli agenti LLM tendono a produrre output incoerenti o errati quando il problema di input viene riformulato in modo semanticamente equivalente (es. cambiando l'ordine dei fatti, usando sinonimi, o modificando il contesto), pur mantenendo lo stesso significato logico.
Le valutazioni standard (come MMLU, GSM8K) falliscono nel rilevare questa fragilità perché testano i modelli su formulazioni fisse e canoniche, assumendo erroneamente che le prestazioni si generalizzino a tutte le parafrasi semanticamente equivalenti.

2. Metodologia: Framework di Metamorphic Testing

Per colmare questo divario, gli autori propongono un framework di Metamorphic Testing (MT), una tecnica originariamente sviluppata per sistemi software privi di "oracoli di test" (risposte di verità assolute). Invece di cercare la risposta corretta per ogni input trasformato, il MT verifica le relazioni tra gli output di input correlati.

Definizione di Invarianza Semantica

Un agente $M$ mostra invarianza semantica perfetta se, per ogni problema $p$ e trasformazione semantica $\tau$ :
$M(p) \equiv M(\tau(p))$
dove $\equiv$ indica l'equivalenza semantica della soluzione.

Le 8 Relazioni Metamorfiche (MR)

Il framework applica otto trasformazioni preservanti il significato, suddivise in tre categorie:

Trasformazioni Strutturali:
- Identità: Input originale (baseline).
- Parafrasi: Cambio di lessico e sintassi mantenendo il significato.
- Riordino Fatti: Permutazione dell'ordine di presentazione di fatti indipendenti.
Trasformazioni di Verbosità:
- Espansione: Aggiunta di contesto chiarificatore non essenziale.
- Contrazione: Rimozione di materiale ridondante mantenendo le informazioni chiave.
Trasformazioni Contestuali:
- Contesto Accademico: Inquadramento in stile esame/testo.
- Contesto Business: Inquadramento in scenario professionale/logistico.
- Contrastivo: Aggiunta di scenari alternativi o misconcezioni comuni (usato come stress test/negative control).

Metriche di Valutazione

Gli autori utilizzano una valutazione multilivello:

Similarità Semantica: Calcolata tramite embedding (Sentence-Transformers) tra la soluzione generata e quella di riferimento.
Delta del Punteggio ( $\Delta$ ): Misura la variazione di qualità della soluzione dopo la trasformazione. Valori negativi indicano degrado.
Mean Absolute Delta (MAD): La media dell'entità del cambiamento; valori più bassi indicano maggiore robustezza.
Tasso di Stabilità: Percentuale di trasformazioni che producono variazioni inferiori a una soglia (es. $|\Delta| < 0.05$ ).
Coerenza della Traccia di Ragionamento: Analisi della similarità semantica tra i passaggi intermedi del ragionamento.

3. Setup Sperimentale

Modelli Valutati: 7 modelli foundation appartenenti a 4 famiglie architettoniche diverse:
- Hermes: 70B e 405B parametri (Dense Transformer).
- Qwen3: 30B-A3B (3B attivi) e 235B-A22B (22B attivi) (MoE - Mixture of Experts).
- DeepSeek: R1-0528 (70B, MoE, ottimizzato per ragionamento).
- gpt-oss: 20B e 120B (Dense Transformer).
Dataset: 19 problemi di ragionamento multistep distribuiti su 8 domini scientifici (Fisica, Matematica, Chimica, ecc.) e 3 livelli di difficoltà.
Protocollo: Ogni combinazione problema-trasformazione è stata valutata con un'unica inferenza per simulare scenari di deployment reali.

4. Risultati Chiave

Lo studio ha prodotto scoperte controintuitive che sfidano la convinzione comune che "più grandi sono i modelli, meglio ragionano":

Inversione Scala-Robustezza: Non esiste una correlazione positiva tra la dimensione del modello e la robustezza semantica.
- Il modello più piccolo, Qwen3-30B-A3B, ha ottenuto la massima stabilità (79.6% di risposte invarianti, MAD 0.049, similarità semantica 0.914).
- I modelli più grandi (es. Hermes-405B, gpt-oss-120B) hanno mostrato una maggiore fragilità e instabilità.
Firme di Vulnerabilità Familiari: Ogni famiglia architettonica presenta profili di debolezza distinti:
- Hermes: Eccellente baseline ma vulnerabile alle trasformazioni contrastive.
- Qwen3: Il profilo di robustezza più equilibrato e resiliente a tutte le trasformazioni.
- DeepSeek-R1: Sensibile al riordino dei fatti e alla contrazione (dipende dall'ordine di input).
- gpt-oss: Mostra instabilità catastrofica, specialmente con trasformazioni contrastive e riordino.
Fragilità Universale Contrastiva: La trasformazione "contrastiva" (aggiunta di scenari alternativi) degrada le prestazioni di tutti i modelli, con cali significativi (fino a -0.45 per gpt-oss-120b). Questo suggerisce un limite fondamentale nel ragionamento basato su attenzione quando sono presenti distrattori plausibili.
Asimmetria nell'Espansione: L'aggiunta di contesto (espansione) aiuta alcuni modelli (Qwen3) ma confonde altri (gpt-oss, DeepSeek), indicando che i meccanismi di attenzione reagiscono diversamente alla ridondanza informativa.

5. Contributi e Significato

Nuovo Paradigma di Valutazione: Il paper introduce un framework sistematico per testare la robustezza degli agenti AI oltre la semplice accuratezza, rivelando difetti invisibili ai benchmark standard.
Implicazioni per il Deployment: Dimostra che per applicazioni critiche, la selezione del modello non dovrebbe basarsi solo sulle dimensioni o sulle prestazioni su benchmark fissi. Modelli più piccoli (come Qwen3-30B) possono essere preferibili per la loro coerenza e affidabilità.
Guida alla Progettazione di Sistemi Multi-Agente: I risultati suggeriscono che gli orchestratori di agenti dovrebbero considerare i "profili di vulnerabilità" specifici per assegnare compiti o creare ensemble di modelli che si compensino a vicenda (es. combinare un modello robusto alle parafrasi con uno robusto al contesto).
Sfide Aperte: La fragilità universale di fronte a contesti contrastivi indica la necessità di interventi a livello di architettura o training per migliorare la resistenza ai distrattori.

In sintesi, il lavoro evidenzia che l'affidabilità degli agenti AI non è una proprietà scalare automatica, ma una caratteristica complessa che dipende dall'architettura e che richiede nuove metodologie di testing (Metamorphic Testing) per essere garantita in scenari reali.