ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep slimme, maar soms een beetje vooroordeelvolle robots hebt die heel goed kunnen lezen en praten, maar soms te snel oordelen op basis van wat ze al weten over de wereld. Dit zijn de Grote Taalmodellen (LLMs).

Deze robots hebben een probleem: als je ze een logisch raadsel geeft, kijken ze vaak niet naar de structuur van het raadsel, maar naar de inhoud. Ze denken: "Oh, dit gaat over honden en katten? Dan moet het antwoord wel kloppen, want dat weet ik uit mijn leven." Maar in de logica maakt het niet uit of het over honden gaat of over groene kaas; het gaat erom of de conclusie noodzakelijk volgt uit de premises.

Dit artikel beschrijft hoe een team (ITLC) een slimme oplossing bedacht om deze robots "koud" en objectief te maken, zonder ze te herscholen of te hacken.

Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: De "Smakelijke" Valstrik

Stel je voor dat je een robot vraagt: "Alle bloemen zijn planten. Geen enkele roos is een plant. Dus, geen enkele roos is een bloem."
Een mens ziet direct: "Wacht, dat klopt niet, want de tweede zin is onzin." Maar een robot die te veel op zijn "wereldkennis" vertrouwt, kan in de war raken. Hij denkt: "Rozen zijn bloemen, dus de conclusie klinkt logisch," en negeert dat de tweede zin de hele logica kapot maakt.

Dit noemen de auteurs content effect (inhoudseffect). De robot laat zich afleiden door de betekenis van de woorden, in plaats van te kijken naar het skelet van het argument.

2. De Oplossing: De "Vertaal- en Scherpslijper"-Machine

Het team heeft een nieuwe methode bedacht die werkt als een twee-staps proces. Het is alsof je de robot eerst een bril opzet die alles in één kleur ziet, en daarna een strakke meetlat gebruikt.

Stap 1: De "Naamloze" Vertaling (Normalisatie)

Stel je voor dat je een gesprek hebt in het Spaans, Frans of Nederlands. De robot is hier soms slecht in.
De methode doet het volgende:

Vertalen naar een neutrale taal: Ze nemen de zin en vertalen alleen de logische schakels (woorden als "alle", "geen", "sommige") naar het Engels.
Verdwenen namen: De echte namen (zoals "hond", "kat", "auto") worden vervangen door simpele letters: A, B en C.
- Voorbeeld: In plaats van "Alle honden zijn dieren", wordt het: "Alle A zijn B".
- In plaats van "Geen enkele kat is een hond", wordt het: "Geen enkele C is A".

Dit is alsof je een ingewikkeld recept in een vreemde taal omzet naar een simpele lijst met ingrediënten: "Neem 2 koppen A, voeg 1 kop B toe." De smaak (de inhoud) is weg, maar de structuur (hoe je het moet maken) blijft perfect over.

Stap 2: De Strikte Regels (Deterministisch Parsers)

Nu de robot alleen nog maar letters en simpele regels ziet, gebruiken ze geen "slimme gok" meer. Ze gebruiken een strikte checklist (een deterministische parser).

Het is als een slot en sleutel. Als de structuur van de zinnen (de "sleutel") niet perfect past in de regels van de logica (het "slot"), dan is het antwoord: Fout.
Als het wel past, dan is het antwoord: Klopt.

Er is geen ruimte voor "misschien" of "het klinkt wel logisch". Het is of het wel, of het niet.

3. Waarom werkt dit zo goed?

In de wedstrijd (SemEval-2026) probeerden ze dit op een wereldwijd niveau, met zinnen in het Engels, Spaans, Swahili, en nog veel meer talen.

De "Gewone" Robot (LLM-only): Probeerde het raadsel op te lossen door te denken. Hij viel vaak in de valstrik van de inhoud. Hij dacht: "Oh, dit gaat over appels, dus ik geloof het." Resultaat: Hij maakte fouten en had vooroordelen.
De "Nieuwe" Methode (ITLC): Kijkt alleen naar de vorm. Omdat ze de namen hebben verwijderd, kan de robot niet meer "gissen" op basis van zijn kennis over appels of honden. Hij moet puur kijken of de letters A, B en C logisch met elkaar verbonden zijn.

Het resultaat? Hun methode kwam in de top 5 van alle deelnemers. Ze waren niet alleen heel nauwkeurig, maar ze maakten ook bijna geen fouten door vooroordelen.

4. De Grootste Les: Soms is "Dummen" Slimmer

De belangrijkste les uit dit paper is dat je niet altijd een super-slimme AI nodig hebt om logische raadsels op te lossen. Soms is het beter om de informatie eerst simpel en saai te maken.

Stel je voor dat je een ingewikkeld wiskundig probleem oplost. Als je blijft denken aan de "smaak" van de getallen (bijvoorbeeld: "3 is een geluksgetal"), maak je fouten. Maar als je de getallen gewoon als symbolen behandelt, kun je de oplossing stap voor stap vinden zonder te twijfelen.

Samenvattend:
De auteurs hebben een manier gevonden om slimme robots dwars te dwingen om te kijken naar de bouwtekening van een argument, in plaats van de inrichting. Door de inhoud te verwijderen en de structuur strak te houden, worden ze eerlijker, nauwkeuriger en minder bevooroordeeld, zelfs als ze in verschillende talen praten.

Het is alsof je een robot die altijd probeert te raden, omzet in een robot die alleen maar meet met een liniaal. En met een liniaal kom je altijd op hetzelfde, juiste antwoord.

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

1. Het Probleem: De "Smakelijke" Valstrik

2. De Oplossing: De "Vertaal- en Scherpslijper"-Machine

Stap 1: De "Naamloze" Vertaling (Normalisatie)

Stap 2: De Strikte Regels (Deterministisch Parsers)

3. Waarom werkt dit zo goed?

4. De Grootste Les: Soms is "Dummen" Slimmer

1. Het Probleem

2. Methodologie

A. Normalisatie (Structuur Abstractie)

B. Deterministisch Parseren

C. Formele Validatie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

1. Het Probleem: De "Smakelijke" Valstrik

2. De Oplossing: De "Vertaal- en Scherpslijper"-Machine

Stap 1: De "Naamloze" Vertaling (Normalisatie)

Stap 2: De Strikte Regels (Deterministisch Parsers)

3. Waarom werkt dit zo goed?

4. De Grootste Les: Soms is "Dummen" Slimmer

1. Het Probleem

2. Methodologie

A. Normalisatie (Structuur Abstractie)

B. Deterministisch Parseren

C. Formele Validatie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics