ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Il paper presenta un metodo innovativo che riduce i bias di contenuto nel ragionamento dei modelli linguistici multilingue trasformando i sillogismi in rappresentazioni logiche canoniche e applicando un parsing deterministico, ottenendo risultati di primo piano nella sfida SemEval-2026 Task 11.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong, Muhammad Ravi Shulthan Habibi, Samuel Cahyawijaya

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🧠 Il "Filtro Logico" contro l'Inganno dei Contenuti

Immagina che i Modelli Linguistici (LLM), come quelli che usi per chattare o scrivere, siano come studenti molto intelligenti ma un po' distratti. Questi studenti hanno letto quasi tutto internet. Quando chiedi loro di risolvere un problema di logica, spesso non guardano la struttura del ragionamento, ma si lasciano ingannare dal significato delle parole.

Il problema:
Se chiedi a uno studente: "Tutti i gatti sono animali. Alcuni animali sono neri. Quindi, alcuni gatti sono neri?", potrebbe dire "Sì" solo perché nella vita reale i gatti neri esistono. Ma logicamente, il ragionamento è sbagliato! Questo è quello che gli autori chiamano "effetto contenuto": il modello confonde ciò che è vero nel mondo reale con ciò che è logicamente valido.

🛠️ La Soluzione: La "Traduzione in Codice"

Il team ITLC (di SEACrowd) ha inventato un metodo per "pulire" la mente di questi studenti prima di farli ragionare. Immagina il loro metodo come un processo di traduzione in tre passaggi:

1. Il "Trasformatore di Abiti" (Normalizzazione)

Immagina che ogni argomento logico sia una persona vestita con abiti colorati e strani (le parole specifiche: "gatto", "micio", "felino").
Il primo passo del loro sistema è far spogliare queste persone e vestirle con abiti grigi identici e anonimi (le lettere A, B, C).

  • Invece di dire "Tutti i gatti sono animali", il sistema dice: "Tutti gli A sono B".
  • Invece di dire "Nessuna mela è un'arancia", dice: "Nessun C è un D".

Perché farlo? Perché togliendo il "colore" (il significato reale), il modello non può più essere distratto da ciò che sa del mondo. Deve guardare solo la forma dell'abito (la struttura logica).

2. Il "Traduttore di Lingue" (Pivot Inglese)

Poiché questi modelli sono molto bravi in inglese ma meno in altre lingue (come l'italiano, lo spagnolo o il bengalese), il sistema fa una cosa intelligente:

  • Prende la frase in lingua straniera.
  • La traduce solo per la grammatica logica (i "tutti", "nessuno", "alcuni") in inglese.
  • Ma lascia le parole chiave (soggetti e oggetti) nella lingua originale.

È come se avessi un traduttore che ti dice: "Ok, la struttura è: 'Tutti gli [X] sono [Y]. Nessun [Z] è [Y]'", mantenendo le parole [X], [Y], [Z] nella loro lingua madre. Questo evita che il modello si confonda con le sfumature delle lingue straniere, ma mantiene l'identità dei termini.

3. Il "Controllore di Biglietti" (Parsing Deterministico)

Una volta che l'argomento è stato ridotto a una formula semplice (es. "Tutti gli A sono B"), il sistema non chiede più all'Intelligenza Artificiale di "pensare" o "indovinare".
Invece, usa un regolamento rigido e matematico (come un controllore dei biglietti in treno).

  • Esiste una lista di regole fisse (es. "Se hai la forma X, la risposta è SÌ. Se hai la forma Y, la risposta è NO").
  • Il sistema controlla la formula contro la lista. Non c'è spazio per l'errore o per l'opinione. È come usare una calcolatrice invece di chiedere a qualcuno di fare un calcolo a mente.

🏆 I Risultati: Perché è Geniale?

Hanno testato questo metodo su una gara internazionale (SemEval-2026) con domande in inglese e in molte altre lingue.

  • Senza il filtro: I modelli AI facevano errori perché si fidavano troppo della loro "intuizione" sul mondo reale (es. "I cani sono animali, quindi...").
  • Con il loro metodo: Hanno raggiunto quasi il 100% di precisione e hanno eliminato quasi completamente gli errori dovuti ai pregiudizi.

L'analogia finale:
Immagina di dover risolvere un puzzle.

  • I modelli normali guardano i pezzi e dicono: "Questo pezzo sembra un cielo azzurro, quindi va messo qui!" (ma potrebbe essere sbagliato).
  • Il metodo ITLC prende il pezzo, lo gira, misura i suoi angoli con un righello e dice: "Questo pezzo ha un angolo di 90 gradi e un bordo ondulato. Secondo il manuale, va messo qui."

💡 In sintesi

Il paper ci dice che non serve rendere le Intelligenze Artificiali più "intelligenti" o più complesse per farle ragionare meglio. A volte, basta toglierle le distrazioni (il significato delle parole), tradurle in un linguaggio semplice e farle seguire regole rigide. È un approccio "semplice ma potente" che funziona anche quando si parla lingue diverse, rendendo l'AI più affidabile e meno soggetta a errori di logica.