LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Dit paper introduceert LINGOLY-TOO, een uitdagend benchmark met 1.203 taalkundige problemen die door middel van orthografische verduistering kennisafhankelijkheid uitschakelt om de ware redeneerprestaties van taalmodellen nauwkeuriger te meten.

Jude Khouja, Lingyi Yang, Karolina Korgul, Simeon Hellsten, Vlad A. Neacsu, Harry Mayne, Ryan Othniel Kearns, Andrew M. Bean, Adam Mahdi

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Grote Taal-Olympiade: Een Test voor Slimme Robots

Stel je voor dat je een zeer slimme robot (een "Large Language Model" of LLM) hebt die alles lijkt te weten. Hij kan vertalen, verhaaltjes schrijven en zelfs wiskundige puzzels oplossen. Maar is hij echt slim, of heeft hij gewoon veel antwoorden uit zijn hoofd geleerd?

Dit is precies het probleem dat de onderzoekers uit Oxford en andere universiteiten willen oplossen. Ze hebben een nieuwe test bedacht, genaamd LINGOLY-TOO.

1. Het Probleem: De "Cheat" van de Robot 📚

Normale tests voor robots zijn vaak als een schooltoets waarbij de vragen al in het leerboek van de robot staan.

  • Het scenario: Je vraagt de robot: "Hoe zeg je 'hond' in het Frans?"
  • De robot: "Dat is 'chien'."
  • De vraag: Is de robot slim genoeg om dit te begrijpen, of heeft hij het gewoon opgezocht in zijn enorme geheugen?

De onderzoekers zeggen: "Veel robots doen alsof ze slim zijn, maar in werkelijkheid gebruiken ze hun geheugen om de antwoorden te 'cheaten'." Ze willen weten of de robot echt kan redeneren (nadenken over regels) of dat hij alleen maar herhaalt wat hij al weet.

2. De Oplossing: De "Taal-Vermomming" 🎭

Om te testen of de robot echt nadenkt, hebben de onderzoekers een slimme truc bedacht. Ze nemen echte taalpuzzels (van de Linguistics Olympiade, een wedstrijd voor middelbare scholieren) en veranderen ze op een heel specifieke manier.

Stel je voor dat je een puzzel hebt met woorden in het Turks.

  • De originele puzzel: De robot ziet de letters k, a, l, a en herkent het woord.
  • De LINGOLY-TOO truc: De onderzoekers spelen een spelletje met de letters. Ze zeggen: "Elke keer dat je een k ziet, vervang die door een z. Elke a wordt een o."

Dit is als het veranderen van de kleding van een persoon. Het gezicht (de logica en de regels) blijft hetzelfde, maar de kleren (de letters) zijn totaal anders.

  • Voor de robot: De robot kan het woord niet meer herkennen uit zijn geheugen, want het ziet eruit als een taal die hij nooit heeft gezien.
  • Voor de logica: De regels binnen de puzzel werken nog steeds precies hetzelfde. Als je in het Turks een regel hebt over "vrouwen die op een man wachten", werkt die regel ook in deze nieuwe, vermomde versie.

3. Wat Gebeurde Er? 📉

De onderzoekers hebben deze test gegeven aan de slimste robots van dit moment (zoals GPT-5 en Claude).

  • Resultaat op de originele puzzels: De robots scoorden goed (ongeveer 59%). Ze leken slim.
  • Resultaat op de "vermomde" puzzels: De scores zakte dramatisch naar ongeveer 48%.

Wat betekent dit?
Het betekent dat de robots op de originele vragen vaak hun geheugen gebruikten in plaats van na te denken. Zodra de "kleding" van de taal veranderde, konden ze niet meer cheaten. Ze moesten echt proberen de regels te ontdekken, en daar bleken ze veel minder goed in te zijn dan we dachten.

4. De Menselijke Vergelijking 👥

Om te zien of dit alleen een robot-probleem is, hebben ze ook mensen de test laten doen.

  • Mensen werden ook een beetje langzamer en maakten meer fouten met de vermomde puzzels (ongeveer 6% minder goed), omdat de letters er vreemd uitzagen.
  • Maar de robots vielen veel harder (ongeveer 13% minder goed).

Dit bewijst dat robots veel meer afhankelijk zijn van hun "geheugen" (wat ze al kennen) dan mensen. Mensen kunnen zich makkelijker aanpassen aan een nieuwe schrijfwijze omdat ze echt naar de logica kijken.

5. Waarom is dit belangrijk? 🌍

Deze test is als een spiegel voor kunstmatige intelligentie.

  • Tot nu toe dachten we dat robots steeds slimmer werden.
  • LINGOLY-TOO laat zien dat ze vaak alleen maar beter zijn geworden in het onthouden van feiten, niet per se in het oplossen van nieuwe problemen.

Het is alsof je een student een wiskundetoets geeft. Als de cijfers in de sommen veranderen (bijvoorbeeld 2+2 wordt 3+3), moet de student de methode kennen. Als de student alleen de antwoorden van de oude sommen heeft geleerd, faalt hij bij de nieuwe sommen. LINGOLY-TOO is die nieuwe som.

Conclusie 🏁

De onderzoekers zeggen: "We moeten stoppen met testen op dingen die robots al uit hun hoofd kennen." Met LINGOLY-TOO hebben ze een eerlijke manier gevonden om te zien of robots écht kunnen nadenken. En tot nu toe is het antwoord: ze zijn nog niet zo slim als ze doen. Ze moeten nog veel leren om echt te begrijpen hoe taal werkt, in plaats van alleen maar te herhalen.