ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

Das Paper stellt eine neuartige Methode vor, die durch strukturelle Abstraktion und deterministisches Parsen syllogistischer Argumente in kanonische logische Repräsentationen die inhaltlichen Verzerrungen von Large Language Models in multilingualen Kontexten reduziert und auf dem SemEval-2026 Task-11-Benchmark Top-5-Ergebnisse erzielt.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong, Muhammad Ravi Shulthan Habibi, Samuel Cahyawijaya

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧠 Das Problem: Wenn KI zu sehr "denkt" wie ein Mensch

Stell dir vor, du hast einen sehr klugen, aber etwas voreingenommenen Assistenten (eine Künstliche Intelligenz). Wenn du ihm ein logisches Rätsel stellst, versucht er oft nicht, die Regeln der Logik zu befolgen, sondern schaut sich stattdessen die Wörter an und fragt sich: "Klingt das in der echten Welt plausibel?"

Ein Beispiel:

  • Premisse 1: Keine Orangen sind Äpfel.
  • Premisse 2: Alle Äpfel sind Früchte.
  • Falsche Schlussfolgerung: Also sind einige Früchte Orangen.

Ein menschlicher (oder KI-) "Denker" könnte denken: "Warte, Orangen sind Früchte, also muss die Schlussfolgerung stimmen!" Er ignoriert die strikte Logik, weil sein Wissen über Orangen und Äpfel ihn in die Irre führt. Das nennt man im Papier "Content Effects" (Inhalts-Effekte). Die KI wird von der Bedeutung der Wörter abgelenkt und vergisst die mathematische Struktur.

🛠️ Die Lösung: ITLC – Der "Logik-Übersetzer"

Das Team hinter dem Papier (ITLC) hat eine clevere Methode entwickelt, um dieses Problem zu lösen. Sie nennen es Normalisierung und deterministisches Parsen.

Stell dir ihren Ansatz wie einen zweistufigen Prozess vor:

Schritt 1: Die "Entkleidungs-Kabine" (Normalisierung)

Stell dir vor, du hast ein komplexes, buntes Kostüm an (den Text in einer Fremdsprache mit vielen Adjektiven). Bevor du es analysieren kannst, musst du es ausziehen, bis nur noch das nackte Skelett übrig bleibt.

  1. Übersetzung ins "Logisch-Englisch": Egal ob der Text auf Spanisch, Swahili oder Deutsch ist, die KI übersetzt ihn erst einmal in eine sehr einfache, standardisierte Form. Aber sie übersetzt nicht die Wörter für "Hund" oder "Katze". Sie behält diese Begriffe in der Originalsprache bei, übersetzt aber nur die Logik-Wörter (wie "alle", "keine", "einige") ins Englische.
    • Analogie: Es ist wie ein Dolmetscher, der nur die Grammatik-Regeln erklärt, aber die Eigennamen stehen lässt.
  2. Das Skelett extrahieren: Die KI schaut sich den Satz an und ersetzt die echten Wörter durch Buchstaben (A, B, C).
    • Statt "Alle Hunde sind Tiere" wird daraus: "Alle A sind B".
    • Statt "Keine Katzen sind Hunde" wird daraus: "Keine C sind A".

Jetzt ist das Rätsel nicht mehr von der Bedeutung der Wörter abhängig. Es ist nur noch ein Muster aus Buchstaben.

Schritt 2: Der "Stempel-Prüfer" (Deterministisches Parsen)

Sobald das Rätsel auf "A, B, C" reduziert ist, braucht die KI keine Intelligenz mehr, um zu raten. Sie benutzt einen festen Regelkatalog (wie einen Stempel oder einen Schablone).

  • Die KI schaut auf das Muster (z. B. "Alle A sind B" + "Keine C sind A").
  • Sie vergleicht dieses Muster mit einer Liste von 24 gültigen logischen Formen (die seit der Antike bekannt sind).
  • Entweder das Muster passt genau auf eine gültige Form → Stempel: GÜLTIG.
  • Oder es passt nicht → Stempel: UNGÜLTIG.

Da dieser Prozess rein mechanisch ist (wie ein Taschenrechner), kann er sich nicht täuschen. Er ignoriert, ob "Hunde" oder "Orangen" drinstehen. Er sieht nur die Form.

🌍 Warum das besonders gut funktioniert

Das Papier zeigt, dass diese Methode in zwei Bereichen glänzt:

  1. Gegen Vorurteile: Da die KI die Wörter ignoriert, merkt sie nicht, dass "Orangen" eigentlich Früchte sind. Sie folgt strikt den Regeln. Das Ergebnis: Die KI macht viel weniger Fehler, die durch "plausible" aber falsche Schlussfolgerungen entstehen.
  2. In vielen Sprachen: Da sie die Logik-Struktur zuerst isoliert und dann prüft, funktioniert das System fast genauso gut auf Spanisch oder Russisch wie auf Englisch. Die "Übersetzung" der Logik-Regeln ins Englische dient nur als Brücke, damit der "Stempel-Prüfer" sie verstehen kann.

🏆 Das Ergebnis

Das Team hat an einem Wettbewerb (SemEval-2026) teilgenommen und Platz 1 bis 5 in allen Kategorien erreicht.

Die große Erkenntnis:
Man muss keine riesigen, komplexen KI-Modelle mit Millionen von Parametern trainieren, um logisch zu denken. Manchmal ist es besser, die KI zu zwingen, ihre "Gedanken" in eine einfache, starre Form zu übersetzen und dann wie ein strenger Mathematiker zu prüfen, ob die Form stimmt.

Zusammengefasst in einem Bild:
Statt der KI zu erlauben, ein freies, kreatives Gedicht über Logik zu schreiben (was oft zu Fehlern führt), zwingt man sie, eine Baustelle mit einem strengen Bauplan zu sein. Wenn der Plan (die Logik-Form) stimmt, ist das Gebäude sicher. Wenn nicht, stürzt es ein – egal, wie schön die Ziegelsteine (die Wörter) aussehen.