ABD: Default Exception Abduction in Finite First Order Worlds

Dit paper introduceert ABD, een benchmark voor het testen van grote taalmodellen op hun vermogen om zeldzame uitzonderingen af te leiden in eindige eerste-orde werelden om satisfiability te herstellen, waarbij evaluaties tonen dat hoewel de validiteit hoog is, er nog steeds significant tekort schiet in parsimonie en generalisatie.

Serafim Batzoglou

Gepubliceerd 2026-03-10✓ Author reviewed
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer strenge, maar slimme leraar bent. Deze leraar heeft een paar simpele regels voor de klas: "Normaal gesproken doen leerlingen hun huiswerk" en "Normaal gesproken zijn ze op tijd".

Maar dan zie je dat de ene leerling (Lars) zijn huiswerk niet heeft gedaan, en de ander (Sanne) te laat is. Je leraarsregels zeggen: "Als je je huiswerk niet doet, ben je een slechte leerling." Maar je wilt niet iedereen direct als 'slecht' bestempelen. Je wilt weten: Waarom doen Lars en Sanne dit? Is het omdat ze ziek zijn? Omdat ze een ruzie hebben gehad? Of omdat ze gewoon lui zijn?

In de wereld van kunstmatige intelligentie (AI) noemen we dit abductie: het raden van de beste verklaring voor een uitzondering op een regel.

Dit paper, getiteld ABD, introduceert een nieuwe manier om te testen hoe goed moderne AI-modellen (zoals de slimste chatbots) dit soort redeneren kunnen. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Spel: De "Regelbreker"

De onderzoekers hebben een spelletje bedacht met drie soorten "werelden" (situaties):

  • ABD-Full (De Volledige Foto): Je ziet alles. Je weet precies wat er is gebeurd. De AI moet een regel bedenken die uitlegt waarom bepaalde mensen de regels breken.
  • ABD-Partial (De Vage Foto): Je ziet niet alles. Sommige feiten ontbreken (bijvoorbeeld: je weet niet of Lars ziek was of niet). De AI moet zeggen: "Als we aannemen dat X waar is, dan klopt het verhaal."
  • ABD-Skeptical (De Waakzame Rechter): Dit is het moeilijkst. De AI moet een regel bedenken die altijd werkt, ongeacht wat de ontbrekende feiten later blijken te zijn. Het moet robuust zijn. Als de AI zegt "Lars is ziek", moet dat kloppen, zelfs als het later blijkt dat hij gewoon lui was.

2. De Opdracht voor de AI

De AI krijgt een set van kleine verhalen (werelden) en een basisregel (bijv. "Als je een rode pet draagt, ben je normaal gesproken blij").

  • In sommige verhalen dragen mensen een rode pet, maar zijn ze niet blij.
  • De AI moet een uitzonderingsregel bedenken. Bijvoorbeeld: "Mensen met een rode pet zijn alleen niet blij als ze ook een blauwe sjaal dragen."
  • De AI moet deze uitzondering zo simpel en zuinig mogelijk houden. Als de AI zegt "Iedereen is een uitzondering", dan heeft hij gewonnen, maar dat is niet slim. De AI moet de minimale aantal uitzonderingen vinden die het verhaal redden.

3. De Test: Waarom is dit belangrijk?

Vroeger keken we alleen of een AI het antwoord "goed" of "fout" had. Maar dit paper zegt: "Nee, dat is te simpel."
Stel, een AI lost het probleem op door te zeggen: "Iedereen met een rode pet, een blauwe sjaal, een groene schoen en een gebroken horloge is een uitzondering." Dat werkt technisch gezien (het is waar), maar het is een slordige oplossing. Het is alsof je een deur dichtdoet met een enorme betonnen muur in plaats van een simpele sleutel.

De onderzoekers kijken naar drie dingen:

  1. Werkt het? (Is de oplossing logisch correct?)
  2. Is het zuinig? (Hoeveel "uitzonderingen" moet de AI maken om het verhaal te redden?)
  3. Is het slim? (Werkt de regel ook in nieuwe, onbekende situaties, of was het gewoon een gelukstreffer?)

4. Wat hebben ze ontdekt? (De Verdict)

Ze hebben 11 van de slimste AI-modellen ter wereld getest. Hier zijn de belangrijkste bevindingen, vertaald:

  • De "Slordige" Winnaars: Sommige modellen (zoals GPT-5.4) vonden oplossingen die bijna perfect waren qua "zuinigheid" (ze maakten heel weinig uitzonderingen). Maar ze deden dit door enorme, ingewikkelde regels te bedenken. Het was alsof ze een ingewikkeld recept schreven voor een boterham. Het werkte, maar het was niet elegant. Als je ze een nieuwe situatie gaf, faalden ze vaak.
  • De "Stevige" Werkers: Andere modellen (zoals Opus-4.6 en DSR) maakten iets meer uitzonderingen dan het absolute minimum, maar hun regels waren simpel en robuust. Ze hielden het hoofd koel in nieuwe situaties.
  • Het "Brittels" Probleem: Veel modellen konden de regels perfect toepassen op de oefenopdrachten, maar zodra ze een nieuwe situatie kregen (een "holdout"), vielen ze in elkaar. Ze hadden de regels niet echt begrepen; ze hadden ze gewoon uit het hoofd geleerd voor de oefenopdracht.
  • De "Waakzame Rechter" is het moeilijkst: In de scenario's waar je niet zeker weet wat er gebeurt (ABD-Skeptical), faalden veel modellen. Ze durfden geen risico's te nemen en maakten te veel uitzonderingen, of ze probeerden een regel die te specifiek was en faalde zodra er één ding anders was.

5. De Grootste Les

De boodschap van dit paper is: Simpel is beter dan slim.

Een AI die een ingewikkelde, 100 regels lange uitzondering bedenkt om een probleem op te lossen, is niet per se slimmer dan een AI die een simpele, 5 regels lange uitzondering bedenkt. Sterker nog, de simpele AI is vaak beter in het omgaan met nieuwe situaties.

Het paper laat zien dat we AI niet alleen moeten testen op "is het antwoord goed?", maar ook op "is het antwoord elegant en robuust?". Net zoals een goede leraar niet alleen kijkt of een kind het antwoord heeft, maar ook of het kind het echt heeft begrepen.

Kortom: We hebben een nieuwe meetlat voor AI-bedacht die kijkt of AI's echt logisch kunnen nadenken over uitzonderingen, of dat ze gewoon aan het gissen en memoriseren zijn. En tot nu toe: ze zijn goed in het memoriseren, maar nog niet perfect in het echt begrijpen van de "geest" van de regel.