ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

🧠 Il "Filtro Logico" contro l'Inganno dei Contenuti

Immagina che i Modelli Linguistici (LLM), come quelli che usi per chattare o scrivere, siano come studenti molto intelligenti ma un po' distratti. Questi studenti hanno letto quasi tutto internet. Quando chiedi loro di risolvere un problema di logica, spesso non guardano la struttura del ragionamento, ma si lasciano ingannare dal significato delle parole.

Il problema:
Se chiedi a uno studente: "Tutti i gatti sono animali. Alcuni animali sono neri. Quindi, alcuni gatti sono neri?", potrebbe dire "Sì" solo perché nella vita reale i gatti neri esistono. Ma logicamente, il ragionamento è sbagliato! Questo è quello che gli autori chiamano "effetto contenuto": il modello confonde ciò che è vero nel mondo reale con ciò che è logicamente valido.

🛠️ La Soluzione: La "Traduzione in Codice"

Il team ITLC (di SEACrowd) ha inventato un metodo per "pulire" la mente di questi studenti prima di farli ragionare. Immagina il loro metodo come un processo di traduzione in tre passaggi:

1. Il "Trasformatore di Abiti" (Normalizzazione)

Immagina che ogni argomento logico sia una persona vestita con abiti colorati e strani (le parole specifiche: "gatto", "micio", "felino").
Il primo passo del loro sistema è far spogliare queste persone e vestirle con abiti grigi identici e anonimi (le lettere A, B, C).

Invece di dire "Tutti i gatti sono animali", il sistema dice: "Tutti gli A sono B".
Invece di dire "Nessuna mela è un'arancia", dice: "Nessun C è un D".

Perché farlo? Perché togliendo il "colore" (il significato reale), il modello non può più essere distratto da ciò che sa del mondo. Deve guardare solo la forma dell'abito (la struttura logica).

2. Il "Traduttore di Lingue" (Pivot Inglese)

Poiché questi modelli sono molto bravi in inglese ma meno in altre lingue (come l'italiano, lo spagnolo o il bengalese), il sistema fa una cosa intelligente:

Prende la frase in lingua straniera.
La traduce solo per la grammatica logica (i "tutti", "nessuno", "alcuni") in inglese.
Ma lascia le parole chiave (soggetti e oggetti) nella lingua originale.

È come se avessi un traduttore che ti dice: "Ok, la struttura è: 'Tutti gli [X] sono [Y]. Nessun [Z] è [Y]'", mantenendo le parole [X], [Y], [Z] nella loro lingua madre. Questo evita che il modello si confonda con le sfumature delle lingue straniere, ma mantiene l'identità dei termini.

3. Il "Controllore di Biglietti" (Parsing Deterministico)

Una volta che l'argomento è stato ridotto a una formula semplice (es. "Tutti gli A sono B"), il sistema non chiede più all'Intelligenza Artificiale di "pensare" o "indovinare".
Invece, usa un regolamento rigido e matematico (come un controllore dei biglietti in treno).

Esiste una lista di regole fisse (es. "Se hai la forma X, la risposta è SÌ. Se hai la forma Y, la risposta è NO").
Il sistema controlla la formula contro la lista. Non c'è spazio per l'errore o per l'opinione. È come usare una calcolatrice invece di chiedere a qualcuno di fare un calcolo a mente.

🏆 I Risultati: Perché è Geniale?

Hanno testato questo metodo su una gara internazionale (SemEval-2026) con domande in inglese e in molte altre lingue.

Senza il filtro: I modelli AI facevano errori perché si fidavano troppo della loro "intuizione" sul mondo reale (es. "I cani sono animali, quindi...").
Con il loro metodo: Hanno raggiunto quasi il 100% di precisione e hanno eliminato quasi completamente gli errori dovuti ai pregiudizi.

L'analogia finale:
Immagina di dover risolvere un puzzle.

I modelli normali guardano i pezzi e dicono: "Questo pezzo sembra un cielo azzurro, quindi va messo qui!" (ma potrebbe essere sbagliato).
Il metodo ITLC prende il pezzo, lo gira, misura i suoi angoli con un righello e dice: "Questo pezzo ha un angolo di 90 gradi e un bordo ondulato. Secondo il manuale, va messo qui."

💡 In sintesi

Il paper ci dice che non serve rendere le Intelligenze Artificiali più "intelligenti" o più complesse per farle ragionare meglio. A volte, basta toglierle le distrazioni (il significato delle parole), tradurle in un linguaggio semplice e farle seguire regole rigide. È un approccio "semplice ma potente" che funziona anche quando si parla lingue diverse, rendendo l'AI più affidabile e meno soggetta a errori di logica.

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

🧠 Il "Filtro Logico" contro l'Inganno dei Contenuti

🛠️ La Soluzione: La "Traduzione in Codice"

1. Il "Trasformatore di Abiti" (Normalizzazione)

2. Il "Traduttore di Lingue" (Pivot Inglese)

3. Il "Controllore di Biglietti" (Parsing Deterministico)

🏆 I Risultati: Perché è Geniale?

💡 In sintesi

1. Il Problema: Effetti di Contenuto nel Ragionamento Logico

2. Metodologia: Astrazione Strutturale e Parsing Deterministico

A. Normalizzazione (Normalization)

B. Parsing Deterministico (Deterministic Parsing)

C. Identificazione delle Premise Rilevanti

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

🧠 Il "Filtro Logico" contro l'Inganno dei Contenuti

🛠️ La Soluzione: La "Traduzione in Codice"

1. Il "Trasformatore di Abiti" (Normalizzazione)

2. Il "Traduttore di Lingue" (Pivot Inglese)

3. Il "Controllore di Biglietti" (Parsing Deterministico)

🏆 I Risultati: Perché è Geniale?

💡 In sintesi

1. Il Problema: Effetti di Contenuto nel Ragionamento Logico

2. Metodologia: Astrazione Strutturale e Parsing Deterministico

A. Normalizzazione (Normalization)

B. Parsing Deterministico (Deterministic Parsing)

C. Identificazione delle Premise Rilevanti

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

Articoli simili

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics