ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : Les IA qui ont "la tête dans le guidon"

Imaginez que vous demandez à un grand ami très intelligent (une Intelligence Artificielle, ou IA) de résoudre une énigme logique.

L'énigme : "Tous les chats sont des mammifères. Certains mammifères sont des chiens. Donc, certains chats sont des chiens."
La réponse de l'IA : "C'est faux !" (Et elle a raison, logiquement).
Mais voici le piège : Si on change les mots pour quelque chose de plus "réaliste" dans la vraie vie, l'IA commence à douter. Par exemple, si on parle de "pizzas" et de "fromage", l'IA va souvent se fier à ce qu'elle sait être vrai dans le monde réel (les pizzas ont du fromage) plutôt qu'à la structure pure de la phrase.

C'est ce que les chercheurs appellent l'"effet de contenu". L'IA est trop distraite par le sens des mots (le contenu) et oublie de regarder la forme du raisonnement (la logique). C'est comme si un détective regardait la couleur des vêtements du suspect au lieu de vérifier ses empreintes digitales.

🛠️ La Solution : Le "Traducteur de Logique" (ITLC)

L'équipe derrière ce papier (ITLC) a inventé une méthode simple mais géniale pour forcer l'IA à arrêter de rêver et à commencer à raisonner comme un mathématicien. Ils appellent ça la normalisation et le parsing déterministe.

Voici comment ça marche, étape par étape, avec une analogie :

1. La Normalisation : Le "Filtre à Mots" 🧼

Imaginez que vous avez un bol de soupe pleine de légumes, de pâtes et de morceaux de viande (c'est votre phrase complexe en français, espagnol, swahili, etc.).
L'IA, normalement, goûte tout et essaie de deviner le goût.

Notre méthode, elle, prend un tamis spécial. Elle ne garde que la forme des ingrédients, pas leur goût.

Elle remplace "chats", "mammifères" et "chiens" par des lettres simples : A, B et C.
Elle transforme la phrase en une structure mathématique pure : "Tous les A sont des B. Certains B sont des C."

C'est comme si on traduisait une conversation complexe en langage des signes ou en code binaire. Plus de distractions ! On ne voit plus que la structure.

2. Le "Parsing" Déterministe : Le Détective Rigide 🕵️‍♂️

Une fois que la phrase est transformée en code (A, B, C), on ne laisse plus l'IA deviner. On utilise un règlement strict, comme un jeu de société avec des règles immuables.

Il existe une "table de vérité" (un manuel de règles) qui dit : "Si tu as la forme A + B, alors la conclusion doit être C. Sinon, c'est faux."
L'ordinateur vérifie simplement si la structure correspond à l'une des 24 formes logiques valides connues depuis Aristote.

C'est comme vérifier si une clé (la conclusion) rentre dans une serrure (les prémisses). Soit ça rentre parfaitement (c'est valide), soit ça ne rentre pas (c'est invalide). Pas de "peut-être", pas d'émotion, pas de biais.

🌍 Pourquoi c'est magique pour les langues étrangères ?

Le papier a été testé dans 6 langues différentes (anglais, espagnol, swahili, etc.).

Le problème habituel : Les IA sont souvent excellentes en anglais mais se perdent dans les nuances des autres langues.
La solution de l'équipe : Ils utilisent une astuce appelée "Pivot Anglais".
- Imaginez que vous avez un message en swahili. Au lieu de demander à l'IA de raisonner directement en swahili, on lui demande d'abord de traduire uniquement les mots-clés logiques (comme "tous", "aucun", "quelques") en anglais, tout en gardant les noms des objets dans leur langue d'origine.
- Ensuite, on applique le tamis et le détective rigide sur cette version "hybride".

C'est comme si on utilisait un pont universel pour faire passer le message de n'importe quelle langue vers une zone de sécurité où la logique est pure et sans ambiguïté.

🏆 Les Résultats : Gagner la partie

En utilisant cette méthode, l'équipe ITLC a :

Éliminé presque totalement les erreurs de "biais" (l'IA ne se fait plus piéger par le sens des mots).
Obtenu un score parfait (ou presque) sur les tests de logique, même dans des langues qu'elle ne maîtrise pas parfaitement.
Démontré qu'on n'a pas besoin de réécrire tout le cerveau de l'IA (ce qui est très compliqué et cher) pour qu'elle soit logique. Il suffit de lui donner les bons outils de nettoyage et de règles simples.

En résumé 🎯

Ce papier nous dit : "Ne forcez pas l'IA à être un génie de la logique. Faites-la d'abord nettoyer ses lunettes (normalisation), puis donnez-lui un manuel de règles strictes (parsing)."

C'est une approche simple, intelligente et très efficace pour s'assurer que nos intelligences artificielles raisonnent vraiment, et ne font pas que deviner ce qui semble "vrai" à première vue. C'est comme passer d'un jeu de devinettes à un jeu d'échecs où les règles sont claires pour tout le monde.

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

🧠 Le Problème : Les IA qui ont "la tête dans le guidon"

🛠️ La Solution : Le "Traducteur de Logique" (ITLC)

1. La Normalisation : Le "Filtre à Mots" 🧼

2. Le "Parsing" Déterministe : Le Détective Rigide 🕵️‍♂️

🌍 Pourquoi c'est magique pour les langues étrangères ?

🏆 Les Résultats : Gagner la partie

En résumé 🎯

1. Problématique

2. Méthodologie

A. Normalisation et Abstraction Structurelle

B. Parsing Déterministe

C. Validation

3. Contributions Clés

4. Résultats

5. Signification et Conclusion

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

🧠 Le Problème : Les IA qui ont "la tête dans le guidon"

🛠️ La Solution : Le "Traducteur de Logique" (ITLC)

1. La Normalisation : Le "Filtre à Mots" 🧼

2. Le "Parsing" Déterministe : Le Détective Rigide 🕵️‍♂️

🌍 Pourquoi c'est magique pour les langues étrangères ?

🏆 Les Résultats : Gagner la partie

En résumé 🎯

1. Problématique

2. Méthodologie

A. Normalisation et Abstraction Structurelle

B. Parsing Déterministe

C. Validation

3. Contributions Clés

4. Résultats

5. Signification et Conclusion

Articles similaires

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics