LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Grote Taal-Olympiade: Een Test voor Slimme Robots

Stel je voor dat je een zeer slimme robot (een "Large Language Model" of LLM) hebt die alles lijkt te weten. Hij kan vertalen, verhaaltjes schrijven en zelfs wiskundige puzzels oplossen. Maar is hij echt slim, of heeft hij gewoon veel antwoorden uit zijn hoofd geleerd?

Dit is precies het probleem dat de onderzoekers uit Oxford en andere universiteiten willen oplossen. Ze hebben een nieuwe test bedacht, genaamd LINGOLY-TOO.

1. Het Probleem: De "Cheat" van de Robot 📚

Normale tests voor robots zijn vaak als een schooltoets waarbij de vragen al in het leerboek van de robot staan.

Het scenario: Je vraagt de robot: "Hoe zeg je 'hond' in het Frans?"
De robot: "Dat is 'chien'."
De vraag: Is de robot slim genoeg om dit te begrijpen, of heeft hij het gewoon opgezocht in zijn enorme geheugen?

De onderzoekers zeggen: "Veel robots doen alsof ze slim zijn, maar in werkelijkheid gebruiken ze hun geheugen om de antwoorden te 'cheaten'." Ze willen weten of de robot echt kan redeneren (nadenken over regels) of dat hij alleen maar herhaalt wat hij al weet.

2. De Oplossing: De "Taal-Vermomming" 🎭

Om te testen of de robot echt nadenkt, hebben de onderzoekers een slimme truc bedacht. Ze nemen echte taalpuzzels (van de Linguistics Olympiade, een wedstrijd voor middelbare scholieren) en veranderen ze op een heel specifieke manier.

Stel je voor dat je een puzzel hebt met woorden in het Turks.

De originele puzzel: De robot ziet de letters k, a, l, a en herkent het woord.
De LINGOLY-TOO truc: De onderzoekers spelen een spelletje met de letters. Ze zeggen: "Elke keer dat je een k ziet, vervang die door een z. Elke a wordt een o."

Dit is als het veranderen van de kleding van een persoon. Het gezicht (de logica en de regels) blijft hetzelfde, maar de kleren (de letters) zijn totaal anders.

Voor de robot: De robot kan het woord niet meer herkennen uit zijn geheugen, want het ziet eruit als een taal die hij nooit heeft gezien.
Voor de logica: De regels binnen de puzzel werken nog steeds precies hetzelfde. Als je in het Turks een regel hebt over "vrouwen die op een man wachten", werkt die regel ook in deze nieuwe, vermomde versie.

3. Wat Gebeurde Er? 📉

De onderzoekers hebben deze test gegeven aan de slimste robots van dit moment (zoals GPT-5 en Claude).

Resultaat op de originele puzzels: De robots scoorden goed (ongeveer 59%). Ze leken slim.
Resultaat op de "vermomde" puzzels: De scores zakte dramatisch naar ongeveer 48%.

Wat betekent dit?
Het betekent dat de robots op de originele vragen vaak hun geheugen gebruikten in plaats van na te denken. Zodra de "kleding" van de taal veranderde, konden ze niet meer cheaten. Ze moesten echt proberen de regels te ontdekken, en daar bleken ze veel minder goed in te zijn dan we dachten.

4. De Menselijke Vergelijking 👥

Om te zien of dit alleen een robot-probleem is, hebben ze ook mensen de test laten doen.

Mensen werden ook een beetje langzamer en maakten meer fouten met de vermomde puzzels (ongeveer 6% minder goed), omdat de letters er vreemd uitzagen.
Maar de robots vielen veel harder (ongeveer 13% minder goed).

Dit bewijst dat robots veel meer afhankelijk zijn van hun "geheugen" (wat ze al kennen) dan mensen. Mensen kunnen zich makkelijker aanpassen aan een nieuwe schrijfwijze omdat ze echt naar de logica kijken.

5. Waarom is dit belangrijk? 🌍

Deze test is als een spiegel voor kunstmatige intelligentie.

Tot nu toe dachten we dat robots steeds slimmer werden.
LINGOLY-TOO laat zien dat ze vaak alleen maar beter zijn geworden in het onthouden van feiten, niet per se in het oplossen van nieuwe problemen.

Het is alsof je een student een wiskundetoets geeft. Als de cijfers in de sommen veranderen (bijvoorbeeld 2+2 wordt 3+3), moet de student de methode kennen. Als de student alleen de antwoorden van de oude sommen heeft geleerd, faalt hij bij de nieuwe sommen. LINGOLY-TOO is die nieuwe som.

Conclusie 🏁

De onderzoekers zeggen: "We moeten stoppen met testen op dingen die robots al uit hun hoofd kennen." Met LINGOLY-TOO hebben ze een eerlijke manier gevonden om te zien of robots écht kunnen nadenken. En tot nu toe is het antwoord: ze zijn nog niet zo slim als ze doen. Ze moeten nog veel leren om echt te begrijpen hoe taal werkt, in plaats van alleen maar te herhalen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Frontier-taalmodellen (LLM's) tonen een toenemend vermogen om redeneeropgaven op te lossen. Echter, hun prestaties worden vaak kunstmatig opgeblazen omdat ze in plaats van echt te redeneren, vertrouwen op hun uitgebreide kennisbasis en memorisatiecapaciteit. Bestaande benchmarks kunnen niet onderscheiden of een model een oplossing vindt door abstracte regels toe te passen (redenering) of door eerder gezien patroon te matchen (kennis/memoratie). Dit leidt tot vertekende schattingen van de werkelijke redeneercapaciteit, vooral bij hoogwaardige talen waar modellen veel trainingsdata hebben.

Methodologie: LINGOLY-TOO

De auteurs introduceren LINGOLY-TOO, een uitdagend benchmark van 1.203 vragen (in totaal 6.995 sub-vragen) afgeleid van de UK Linguistics Olympiad (UKLO). De kern van de methode is het toepassen van expert-ontworpen orthografische obscuratie (verduistering) om de problemen te veranderen zonder de onderliggende logica te verstoren.

Data-Generatie en Obscuratie:
- De oorspronkelijke problemen bevatten teksten in een "Problemese" (doeltaal) en "Solverese" (meestal Engels).
- In plaats van woorden te vervangen (wat de symbolische structuur zou breken), passen de auteurs grafemische permutaties toe. Dit betekent dat letters of lettercombinaties (grafemen) systematisch worden omgewisseld volgens een strikt regelsysteem.
- Behoud van logica: De permutaties zijn "redenerings-equivalent". Ze behouden linguïstische relaties die essentieel zijn voor de oplossing (bijvoorbeeld klinkerharmonie of klankgroepen), maar verwijderen alle hints die een model zou kunnen gebruiken om op basis van bestaande kennis (zoals taalherkenning of leenwoorden) te raden.
- Voorbeelden van regels:
  - Loanwoorden en namen: Namen van personen, goden en heilige plaatsen blijven onveranderd. Bekende leenwoorden worden soms behouden als ze essentieel zijn voor de oplossing, maar vaak worden ze ook verduisterd om kennislekkage te voorkomen.
  - Fonologische paren: Als een probleem berust op het onderscheid tussen ronde en niet-ronde klinkers, worden deze klinkers als paren behandeld die onderling kunnen worden verwisseld, maar niet met andere klinkers. Dit voorkomt dat het probleem onoplosbaar wordt.
- Er zijn tot 6 unieke, geldige permutaties gegenereerd per probleem, wat resulteert in duizenden unieke varianten die onwaarschijnlijk in trainingsdata voorkomen.
Evaluatie:
- Modellen worden getest op de originele vragen ( $M_{og}$ ) en de verduisterde vragen ( $M_{obf}$ ).
- Het verschil in score tussen deze twee condities dient als maatstaf voor de mate waarin een model "shortcuts" (kennis/memoratie) gebruikt in plaats van redenering.
- Er zijn ook experimenten uitgevoerd met "no context" settings (waar cruciale informatie wordt verwijderd) om te bewijzen dat modellen zonder context op de verduisterde data nauwelijks nog kunnen scoren.

Belangrijkste Bijdragen

Een niet-verzadigde benchmark: LINGOLY-TOO biedt een schaal van moeilijkheidsgraden (van "Breakthrough" tot "Round 2") die zelfs de beste modellen (zoals GPT-5) niet volledig kunnen oplossen. De beste scores liggen rond de 48% op verduisterde data, wat aangeeft dat er nog veel ruimte is voor verbetering.
Kwantificering van kennis-effecten: De paper introduceert een methode om de "inflatie" van redeneerscores door kennis te meten. Er wordt aangetoond dat de prestatiegap tussen originele en verduisterde vragen correleert met de "resource-rijkdom" van een taal (hoe meer sprekers/trainingsdata, hoe groter de afhankelijkheid van kennis).
Validatie van onbesmette data: Door tests uit te voeren op nog niet gepubliceerde UKLO 2025-problemen, tonen de auteurs aan dat de prestatiedaling bij verduistering niet alleen komt door overfitting op de trainingsset, maar een fundamenteel probleem is van kennis-afhankelijkheid.

Resultaten

Prestatie-daling: De beste redeneermodellen (zoals GPT-5 en Claude 3.7) scoren ongeveer 0,59 op de originele problemen, maar dit daalt naar 0,48 op de verduisterde problemen. Dit toont aan dat zelfs geavanceerde modellen sterk afhankelijk zijn van shortcuts.
Redeneermodellen vs. Algemene Modellen: Modellen die specifiek zijn getraind voor redeneren (met "thinking" capabilities) presteren beter dan algemene LLM's, maar blijven gevoelig voor de permutaties. Ze tonen echter meer consistentie en minder fouten in hun redeneertraces.
Invloed van Taalresourcen: Er is een sterke negatieve correlatie gevonden tussen de hoeveelheid trainingsdata voor een taal en de prestaties op verduisterde data. Modellen scoren slechter op verduisterde data van talen met veel trainingsdata (bijv. Japans, Fins, Italiaans), wat suggereert dat ze daar vooral op memoratie vertrouwen.
Tokenisatie-effect: Experimenten met alternatieve tokenisatie (bijv. het invoegen van streepjes tussen karakters) tonen aan dat de prestatiedaling niet veroorzaakt wordt door slechte tokenisatie, maar door het ontbreken van semantische kennis.
Menselijke Vergelijking: Een human study (RCT) met 172 deelnemers toonde een kleine maar significante daling van 5,7% bij verduisterde problemen. LLM's vertoonden echter een veel grotere daling (12,84%), wat bevestigt dat modellen meer profiteren van voorafgaande taalblootstelling dan mensen.

Betekenis en Conclusie

LINGOLY-TOO is een cruciale stap in het evalueren van LLM's omdat het redeneren entangelt van kennis. De resultaten tonen aan dat veel van de hoge scores op bestaande benchmarks een illusie zijn, voortkomend uit memoratie en kennis van de taal in plaats van het vermogen om abstracte regels af te leiden.

Construct Validiteit: De benchmark biedt een zuiverder beeld van de werkelijke redeneercapaciteit van frontier-modellen.
Toekomstige Richting: Het paper suggereert dat vooruitgang in wiskunde en codering niet automatisch vertaalt naar linguïstisch redeneren. Modellen moeten leren omgaan met onbekende orthografieën en structuren zonder te vertrouwen op hun interne kennisbank.
Ethiek: De auteurs benadrukken dat de gebruikte taaldata respectvol wordt behandeld en dat de verduistering geen schade toebrengt aan de culturele integriteit van de talen, aangezien de grammatica en betekenissen behouden blijven.

Kortom, LINGOLY-TOO dwingt modellen om echt te "denken" in plaats van te "herkennen", en onthult dat dit voor de huidige staat van de techniek nog een aanzienlijke uitdaging blijft.

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

🕵️‍♂️ De Grote Taal-Olympiade: Een Test voor Slimme Robots

1. Het Probleem: De "Cheat" van de Robot 📚

2. De Oplossing: De "Taal-Vermomming" 🎭

3. Wat Gebeurde Er? 📉

4. De Menselijke Vergelijking 👥

5. Waarom is dit belangrijk? 🌍

Conclusie 🏁

Probleemstelling

Methodologie: LINGOLY-TOO

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification