ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

🧠 Das Problem: Wenn KI zu sehr "denkt" wie ein Mensch

Stell dir vor, du hast einen sehr klugen, aber etwas voreingenommenen Assistenten (eine Künstliche Intelligenz). Wenn du ihm ein logisches Rätsel stellst, versucht er oft nicht, die Regeln der Logik zu befolgen, sondern schaut sich stattdessen die Wörter an und fragt sich: "Klingt das in der echten Welt plausibel?"

Ein Beispiel:

Premisse 1: Keine Orangen sind Äpfel.
Premisse 2: Alle Äpfel sind Früchte.
Falsche Schlussfolgerung: Also sind einige Früchte Orangen.

Ein menschlicher (oder KI-) "Denker" könnte denken: "Warte, Orangen sind Früchte, also muss die Schlussfolgerung stimmen!" Er ignoriert die strikte Logik, weil sein Wissen über Orangen und Äpfel ihn in die Irre führt. Das nennt man im Papier "Content Effects" (Inhalts-Effekte). Die KI wird von der Bedeutung der Wörter abgelenkt und vergisst die mathematische Struktur.

🛠️ Die Lösung: ITLC – Der "Logik-Übersetzer"

Das Team hinter dem Papier (ITLC) hat eine clevere Methode entwickelt, um dieses Problem zu lösen. Sie nennen es Normalisierung und deterministisches Parsen.

Stell dir ihren Ansatz wie einen zweistufigen Prozess vor:

Schritt 1: Die "Entkleidungs-Kabine" (Normalisierung)

Stell dir vor, du hast ein komplexes, buntes Kostüm an (den Text in einer Fremdsprache mit vielen Adjektiven). Bevor du es analysieren kannst, musst du es ausziehen, bis nur noch das nackte Skelett übrig bleibt.

Übersetzung ins "Logisch-Englisch": Egal ob der Text auf Spanisch, Swahili oder Deutsch ist, die KI übersetzt ihn erst einmal in eine sehr einfache, standardisierte Form. Aber sie übersetzt nicht die Wörter für "Hund" oder "Katze". Sie behält diese Begriffe in der Originalsprache bei, übersetzt aber nur die Logik-Wörter (wie "alle", "keine", "einige") ins Englische.
- Analogie: Es ist wie ein Dolmetscher, der nur die Grammatik-Regeln erklärt, aber die Eigennamen stehen lässt.
Das Skelett extrahieren: Die KI schaut sich den Satz an und ersetzt die echten Wörter durch Buchstaben (A, B, C).
- Statt "Alle Hunde sind Tiere" wird daraus: "Alle A sind B".
- Statt "Keine Katzen sind Hunde" wird daraus: "Keine C sind A".

Jetzt ist das Rätsel nicht mehr von der Bedeutung der Wörter abhängig. Es ist nur noch ein Muster aus Buchstaben.

Schritt 2: Der "Stempel-Prüfer" (Deterministisches Parsen)

Sobald das Rätsel auf "A, B, C" reduziert ist, braucht die KI keine Intelligenz mehr, um zu raten. Sie benutzt einen festen Regelkatalog (wie einen Stempel oder einen Schablone).

Die KI schaut auf das Muster (z. B. "Alle A sind B" + "Keine C sind A").
Sie vergleicht dieses Muster mit einer Liste von 24 gültigen logischen Formen (die seit der Antike bekannt sind).
Entweder das Muster passt genau auf eine gültige Form → Stempel: GÜLTIG.
Oder es passt nicht → Stempel: UNGÜLTIG.

Da dieser Prozess rein mechanisch ist (wie ein Taschenrechner), kann er sich nicht täuschen. Er ignoriert, ob "Hunde" oder "Orangen" drinstehen. Er sieht nur die Form.

🌍 Warum das besonders gut funktioniert

Das Papier zeigt, dass diese Methode in zwei Bereichen glänzt:

Gegen Vorurteile: Da die KI die Wörter ignoriert, merkt sie nicht, dass "Orangen" eigentlich Früchte sind. Sie folgt strikt den Regeln. Das Ergebnis: Die KI macht viel weniger Fehler, die durch "plausible" aber falsche Schlussfolgerungen entstehen.
In vielen Sprachen: Da sie die Logik-Struktur zuerst isoliert und dann prüft, funktioniert das System fast genauso gut auf Spanisch oder Russisch wie auf Englisch. Die "Übersetzung" der Logik-Regeln ins Englische dient nur als Brücke, damit der "Stempel-Prüfer" sie verstehen kann.

🏆 Das Ergebnis

Das Team hat an einem Wettbewerb (SemEval-2026) teilgenommen und Platz 1 bis 5 in allen Kategorien erreicht.

Die große Erkenntnis:
Man muss keine riesigen, komplexen KI-Modelle mit Millionen von Parametern trainieren, um logisch zu denken. Manchmal ist es besser, die KI zu zwingen, ihre "Gedanken" in eine einfache, starre Form zu übersetzen und dann wie ein strenger Mathematiker zu prüfen, ob die Form stimmt.

Zusammengefasst in einem Bild:
Statt der KI zu erlauben, ein freies, kreatives Gedicht über Logik zu schreiben (was oft zu Fehlern führt), zwingt man sie, eine Baustelle mit einem strengen Bauplan zu sein. Wenn der Plan (die Logik-Form) stimmt, ist das Gebäude sicher. Wenn nicht, stürzt es ein – egal, wie schön die Ziegelsteine (die Wörter) aussehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) leiden in logischen Schlussfolgerungsaufgaben, insbesondere im multilingualen Kontext, unter starken Inhalts-Effekten (Content Effects). Das bedeutet, dass Modelle ihre Urteile oft auf semantische Plausibilität oder Weltwissen stützen, anstatt strikt der formalen logischen Struktur zu folgen. Dies führt zu Fehlern bei der Bewertung der Gültigkeit von Syllogismen (deduktive Argumente aus zwei Prämissen und einer Konklusion), da das Modell „glaubhafte" aber logisch ungültige Schlüsse akzeptiert oder korrekte, aber kontraintuitive Schlüsse ablehnt.

Das Hauptziel des SemEval-2026 Task 11 ist es, diese Verzerrungen zu messen und zu minimieren, indem Modelle getestet werden, ob sie formale Logik unabhängig vom inhaltlichen Kontext anwenden können. Bisherige Ansätze wie Feinabstimmung (Fine-Tuning) oder Eingriffe auf Aktivierungsebene sind oft komplex, schwer interpretierbar und nicht immer effektiv, insbesondere bei nicht-englischen Sprachen.

2. Methodik

Die Autoren stellen einen neuen, unvoreingenommenen Ansatz vor, der auf expliziter struktureller Abstraktion und deterministischem Parsing basiert. Der Prozess läuft in drei Hauptphasen ab:

A. Normalisierung (Normalization)

Das Ziel ist die Transformation natürlichsprachlicher Argumente in eine kanonische, symbolische Darstellung, die nur die logische Struktur bewahrt.

Kategorische Syllogismen: Das System identifiziert drei semantische Kategorien (Subjekt $S$ , Prädikat $P$ , Mittelterm $M$ ) und abstrahiert sie zu symbolischen Konstanten ( $A, B, C$ ).
Englische Pivot-Normalisierung (EPN): Da LLMs in Englisch oft besser performen, werden nicht-englische Eingaben nicht frei übersetzt. Stattdessen wird ein LLM angewiesen, nur Quantoren und Kopulaverben ins Englische zu übersetzen, während die ursprünglichen Subjekt- und Prädikatbegriffe in der Zielsprache beibehalten werden. Dies verhindert lexikalische Verschiebungen, die die Identität der Terme verändern könnten.

B. Deterministisches Parsing (Preposition Parsing)

Nach der Normalisierung wird die Argumentstruktur durch deterministische Regeln (Regex-Muster) analysiert, nicht durch probabilistische LLM-Inferenz.

Klassifizierung: Jeder Satz wird den vier kategorischen Typen zugeordnet: $A$ (Alle $S$ sind $P$ ), $E$ (Keine $S$ sind $P$ ), $I$ (Einige $S$ sind $P$ ), $O$ (Einige $S$ sind nicht $P$ ).
Strukturelle Extraktion: Das System extrahiert die Terme und bestimmt die Figur (Position des Mittelterms) und den Modus (Reihenfolge der Typen $A, E, I, O$ ).
Validitätsprüfung: Anhand einer vordefinierten Lookup-Tabelle (basierend auf klassischer syllogistischer Theorie) wird geprüft, ob der ermittelte Modus-Figur-Paar gültig ist. Dies eliminiert die Notwendigkeit, dass das LLM die Logik selbst „versteht"; es wird nur die Struktur abgeglichen.

C. Relevante Prämissen-Identifikation

Für gültige Argumente werden die beiden Prämissen identifiziert, die strukturell notwendig sind, um von $S$ zu $P$ über $M$ zu gelangen. Bei ungültigen Argumenten wird die Menge der relevanten Prämissen als leer definiert.

3. Wichtige Beiträge

Entkopplung von Inhalt und Logik: Der Ansatz zeigt, dass eine einfache Normalisierung in eine kanonische Form ausreicht, um Inhaltsverzerrungen drastisch zu reduzieren, ohne komplexe Architekturen zu benötigen.
Deterministische Robustheit: Durch den Ersatz von probabilistischer Inferenz durch deterministische Regeln wird die Reproduzierbarkeit sichergestellt und das Rauschen durch semantische Ablenkungen eliminiert.
Multilinguale Skalierbarkeit: Die Strategie der „Englischen Pivot-Normalisierung" ermöglicht es, die Vorteile der englischen Logikverarbeitung auf andere Sprachen zu übertragen, ohne die lexikalische Integrität der Begriffe zu zerstören.
Interpretierbarkeit: Im Gegensatz zu Black-Box-Modellen ist jeder Schritt (Normalisierung, Parsing, Lookup) nachvollziehbar und überprüfbar.

4. Ergebnisse

Das Team „ITLC" erzielte bei SemEval-2026 Task 11 Top-5-Rankings in allen vier Subtasks (Gültigkeit und Relevanz für Englisch und Mehrsprachigkeit).

Englisch (Subtask 1 & 2):
- Gültigkeit: Erreichte 100 % Genauigkeit mit 0 % Bias. Das Modell machte keine Fehler mehr, da die Normalisierung die Eingaben perfekt in die logische Form überführte.
- Relevanz: 98,94 % Genauigkeit bei der Identifikation relevanter Prämissen.
- Im Vergleich dazu zeigte das reine LLM-Only-Modell eine geringere Genauigkeit und signifikante Verzerrungen durch Inhaltsplausibilität.
Mehrsprachig (Subtask 3 & 4):
- Ohne Normalisierung (LLM-only) brach die Leistung ein und die Verzerrung war hoch.
- Mit der EPN + Norm + Parsing-Pipeline wurde die Genauigkeit bei der Gültigkeitsprüfung auf 100 % (Subtask 3) bzw. 90,63 % (Subtask 4) gesteigert, während der Bias auf 0,0 (Subtask 3) bzw. 3,00 (Subtask 4) sank.
- Ein wichtiger Befund: Ohne die Übersetzung der Quantoren (nur direkte Normalisierung) scheiterte das System oft an lexikalischen Unterschieden zwischen Sprachen (z. B. Zusammenfallen von Begriffen wie „Hund" und „Canine" im Französischen), was die Notwendigkeit der Pivot-Strategie unterstreicht.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass für formales logisches Reasoning keine komplexen neuronalen Anpassungen oder tiefgreifenden Eingriffe in die Modellarchitektur notwendig sind. Stattdessen ist eine hybride Pipeline aus:

LLM-gestützter Normalisierung (zur Strukturierung),
Deterministischem Parsing (zur Regelanwendung)
ein überlegener Ansatz.

Dieser Ansatz bietet eine skalierbare, interpretierbare und robuste Alternative zu reinen LLM-Ansätzen. Er beweist, dass die Hauptursache für logische Fehler in LLMs oft nicht mangelnde Intelligenz, sondern die Unfähigkeit ist, sich von semantischen Inhalten zu lösen. Durch die Abstraktion auf die reine Form wird dieses Problem effektiv gelöst, was besonders für Anwendungen in kritischen Bereichen, wo Zuverlässigkeit und Fairness (wenig Bias) essenziell sind, von großer Bedeutung ist.