Semantic Invariance in Agentic AI

Questo articolo presenta un framework di testing metamorfico che dimostra come l'invarianza semantica degli agenti AI basati su LLM non sia correlata alla scala del modello, rivelando che modelli più piccoli come Qwen3-30B-A3B possono essere più robusti di quelli più grandi di fronte a variazioni semanticamente equivalenti degli input.

I. de Zarzà, J. de Curtò, Jordi Cabot, Pietro Manzoni, Carlos T. Calafate

Pubblicato 2026-03-16
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🧠 Il "Test del Camaleonte": Perché i modelli AI più grandi non sono sempre i più affidabili

Immagina di avere un genio matematico (un'intelligenza artificiale) che deve risolvere un problema complesso. Finora, abbiamo sempre chiesto al genio: "Quanto è bravo a risolvere questo problema?" e abbiamo dato un voto basato sulla risposta corretta.

Ma questo nuovo studio si chiede una domanda diversa e molto più importante: "Se cambio il modo in cui ti chiedo il problema, il genio cambia ancora la risposta?"

🎭 L'Analogia del "Problema Vestito Diverso"

Pensa a un problema matematico come a un vestito.

  • Versione A: Il vestito è un abito da sera formale (linguaggio accademico).
  • Versione B: Il vestito è una tuta da ginnastica (linguaggio aziendale o colloquiale).
  • Versione C: Il vestito è stato stirato in modo diverso o i bottoni sono spostati (i fatti sono riordinati).

Il contenuto è lo stesso: è sempre lo stesso problema. Un vero esperto dovrebbe dare la stessa soluzione indipendentemente da come è vestito il problema.

Il problema è che le attuali Intelligenze Artificiali (i modelli LLM) sono come studenti molto intelligenti ma un po' nervosi. Se cambi il vestito del problema, anche se il significato è identico, lo studente potrebbe andare in panico, confondersi e dare una risposta sbagliata. Questo è quello che gli autori chiamano mancanza di "invarianza semantica".

🔍 Cosa hanno fatto gli scienziati? (Il "Test Metamorfico")

Invece di usare i soliti esami standard (dove le domande sono sempre scritte allo stesso modo), hanno creato un laboratorio di trasformazione. Hanno preso 19 problemi scientifici (fisica, matematica, economia) e li hanno "truccati" in 8 modi diversi:

  1. Riscrittura: Cambiare le parole ma mantenere il senso.
  2. Riordino: Mettere i fatti in ordine diverso.
  3. Espansione/Contrazione: Aggiungere dettagli inutili o togliere parole superflue.
  4. Cambio di contesto: Dire "Immagina di essere un professore" o "Immagina di essere un manager".
  5. Contrasto: Aggiungere scenari falsi o distrattori per vedere se l'AI si distrae.

Hanno poi fatto fare questi test a 7 diversi modelli AI (alcuni piccolissimi, altri enormi) per vedere chi rimaneva calmo e chi andava in crisi.

📉 La Grande Sorpresa: Più grande non significa più forte!

Qui arriva il colpo di scena che ribalta tutto ciò che pensavamo.

  • L'idea sbagliata: Pensavamo che un modello con 400 miliardi di parametri (un "gigante") fosse più robusto e affidabile di uno con 30 miliardi (un "piccolo").
  • La realtà: È successo l'opposto!
    • I giganti (come i modelli Hermes o GPT-oss grandi) sono diventati più fragili. Quando hanno cambiato il "vestito" del problema, hanno iniziato a sbagliare di più. Sembrano macchine troppo complesse che si confondono con le variazioni.
    • Il piccolo modello (Qwen3-30B) è stato il campione di stabilità. Ha dato la stessa risposta corretta nel 79,6% dei casi, anche quando il problema era stato riscritto o riordinato. È come un atleta che, anche se più piccolo, mantiene la postura perfetta sotto stress, mentre il gigante barcolla.

🚩 Le "Fragilità" di Famiglia

Ogni famiglia di modelli ha i suoi "punti deboli" specifici, come se avessero delle allergie diverse:

  • I modelli "Hermes": Sono bravi, ma vanno in tilt se gli metti davanti un confronto (es: "Ecco la soluzione A, ma guarda anche la B..."). Si confondono con le alternative.
  • I modelli "DeepSeek": Se cambi l'ordine dei fatti nella domanda, si perdono. Sembrano dipendere dalla sequenza esatta delle parole.
  • I modelli "gpt-oss": Sono i più instabili. Cambiano risposta quasi a caso se il problema viene riformulato in modo diverso.
  • I modelli "Qwen3": Sono i più equilibrati. Soprattutto il modello piccolo, che ha mostrato una resistenza incredibile.

💡 Perché questo è importante per noi?

Immagina di usare un'AI per:

  • Fare una diagnosi medica.
  • Gestire i soldi di un'azienda.
  • Guidare un'auto a guida autonoma.

Se l'AI è come uno studente nervoso che cambia risposta solo perché hai usato una parola diversa invece di un'altra, non è sicura.

La lezione principale:
Non scegliere un'AI solo perché è la più grande o quella che prende il voto più alto nei test standard. Se vuoi affidabilità nel mondo reale (dove le domande arrivano in mille forme diverse), devi scegliere quella che è robusta, anche se è più piccola.

In sintesi: Non guardare solo la grandezza del motore, guarda quanto è stabile la macchina quando la strada cambia.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →