LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Il paper introduce LINGOLY-TOO, un benchmark di ragionamento linguistico che utilizza obfuscazioni ortografiche per isolare le vere capacità di ragionamento dei modelli linguistici, dimostrando che le loro prestazioni migliori sono spesso sovrastimate dalla conoscenza memorizzata piuttosto che dalla logica deduttiva.

Jude Khouja, Lingyi Yang, Karolina Korgul, Simeon Hellsten, Vlad A. Neacsu, Harry Mayne, Ryan Othniel Kearns, Andrew M. Bean, Adam Mahdi

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Il Grande Inganno delle Intelligenze Artificiali

Immagina di avere un amico, chiamiamolo "Super-Robot", che è famoso per essere un genio della logica. Ti dice: "Posso risolvere qualsiasi rompicapo, non ho bisogno di studiare, sono nato con la risposta in testa!".

Per testarlo, gli dai un indovinello: "Se un gatto è 'Miao' e un cane è 'Bau', cosa fa un pesce?".
Super-Robot risponde subito: "Squill!".
Tu pensi: "Wow, è geniale!". Ma in realtà, Super-Robot non ha fatto nessun ragionamento. Ha solo ricordato che nei suoi libri di addestramento c'era scritto che i pesci fanno "Squill". Ha imbrogliato usando la sua memoria, non la sua logica.

Questo è il problema con le Intelligenze Artificiali (LLM) di oggi: sembrano ragionare, ma spesso stanno solo ricorrendo a ciò che hanno già letto su internet. Se un problema è troppo simile a qualcosa che hanno già visto, risolvono l'indovinello senza davvero "capire" come funziona.

🎭 LINGOLY-TOO: Il Trucco del "Travestimento"

Gli autori di questo studio (ricercatori di Oxford e altri) hanno creato un nuovo banco di prova chiamato LINGOLY-TOO. L'idea è geniale e semplice: facciamo indossare una maschera al Super-Robot.

Hanno preso dei veri e propri indovinelli linguistici (provenienti dalle Olimpiadi di Linguistica, dove gli studenti devono scoprire le regole di una lingua sconosciuta solo guardando degli esempi) e li hanno trasformati.

Ecco come funziona la magia:

  1. Il Travestimento: Immagina di prendere un testo scritto in italiano e sostituire ogni lettera con un simbolo strano, ma mantenendo le regole grammaticali intatte.
    • Esempio: Invece di scrivere "CASA", scriviamo "X@#A".
    • La parola "CASA" non esiste più nel database del robot. Il suo "cervello" non può più cercare su Google o ricordare la parola.
  2. La Logica Resta: Anche se le lettere sono cambiate, la struttura è la stessa. Se in italiano "CASA" diventa plurale aggiungendo una "E" (CASE), allora anche "X@#A" diventerà "X@#AE".
  3. Il Test: Ora chiedi al robot di risolvere il puzzle. Non può più usare la memoria (perché la parola è "invisibile" per lui). Deve ragionare e dedurre le regole da zero, proprio come farebbe un umano.

📉 Cosa è successo? (La Sconfitta del Robot)

Gli scienziati hanno fatto fare questo test a modelli molto avanzati (come GPT-5, Claude, ecc.). Ecco il risultato sorprendente:

  • Senza maschera (Problemi originali): I robot prendevano voti alti (circa 59/100). Sembravano geni.
  • Con maschera (Problemi travestiti): I voti crollavano drasticamente (scendevano a circa 48/100).

Cosa significa? Significa che quando togli la possibilità di "barare" usando la memoria, i robot rivelano che il loro ragionamento è molto più fragile di quanto pensiamo. Sono bravi a ricordare, ma meno bravi a pensare davvero.

🧠 Analogia: Il Cuoco e la Ricetta

Immagina un cuoco (l'Intelligenza Artificiale) che deve preparare un piatto nuovo.

  • Senza LINGOLY-TOO: Gli dai gli ingredienti e lui dice: "Ah, so già come si fa questo piatto, l'ho visto su TikTok!". Lo prepara velocemente, ma non sa perché gli ingredienti vanno mescolati così.
  • Con LINGOLY-TOO: Gli dai gli stessi ingredienti, ma li hai mischiati in un contenitore opaco e gli hai dato un nome finto. Ora il cuoco non può guardare la ricetta su internet. Deve assaggiare, annusare e capire da solo come gli ingredienti interagiscono per creare il sapore. Se non sa cucinare davvero, il piatto verrà male.

🌍 Perché è importante?

Questo studio ci dice due cose fondamentali:

  1. Non fidiamoci ciecamente dei punteggi: Se un'IA prende 100 in un test, potrebbe aver solo "imparato a memoria" le risposte, non averle capite.
  2. Le lingue ricche sono un vantaggio ingiusto: I robot sono bravi con lingue come l'inglese o lo spagnolo perché ne hanno lette milioni di volte. Con lingue rare o sconosciute (o travestite), falliscono perché non hanno abbastanza "memoria" da attingere.

In sintesi

LINGOLY-TOO è come un esame a sorpresa dove cambiano le parole del libro di testo ma lasciano le regole della matematica. Serve a vedere se lo studente (il robot) ha davvero imparato a fare i calcoli o se si è solo imparato a memoria le risposte dell'anno scorso.

Il risultato? Anche i robot più intelligenti oggi sono ancora un po' "imbrogli" quando devono ragionare su cose che non hanno mai visto prima. C'è ancora molta strada da fare per renderli veri pensatori! 🚀