ABD: Default Exception Abduction in Finite First Order Worlds

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer strenge, maar slimme leraar bent. Deze leraar heeft een paar simpele regels voor de klas: "Normaal gesproken doen leerlingen hun huiswerk" en "Normaal gesproken zijn ze op tijd".

Maar dan zie je dat de ene leerling (Lars) zijn huiswerk niet heeft gedaan, en de ander (Sanne) te laat is. Je leraarsregels zeggen: "Als je je huiswerk niet doet, ben je een slechte leerling." Maar je wilt niet iedereen direct als 'slecht' bestempelen. Je wilt weten: Waarom doen Lars en Sanne dit? Is het omdat ze ziek zijn? Omdat ze een ruzie hebben gehad? Of omdat ze gewoon lui zijn?

In de wereld van kunstmatige intelligentie (AI) noemen we dit abductie: het raden van de beste verklaring voor een uitzondering op een regel.

Dit paper, getiteld ABD, introduceert een nieuwe manier om te testen hoe goed moderne AI-modellen (zoals de slimste chatbots) dit soort redeneren kunnen. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Spel: De "Regelbreker"

De onderzoekers hebben een spelletje bedacht met drie soorten "werelden" (situaties):

ABD-Full (De Volledige Foto): Je ziet alles. Je weet precies wat er is gebeurd. De AI moet een regel bedenken die uitlegt waarom bepaalde mensen de regels breken.
ABD-Partial (De Vage Foto): Je ziet niet alles. Sommige feiten ontbreken (bijvoorbeeld: je weet niet of Lars ziek was of niet). De AI moet zeggen: "Als we aannemen dat X waar is, dan klopt het verhaal."
ABD-Skeptical (De Waakzame Rechter): Dit is het moeilijkst. De AI moet een regel bedenken die altijd werkt, ongeacht wat de ontbrekende feiten later blijken te zijn. Het moet robuust zijn. Als de AI zegt "Lars is ziek", moet dat kloppen, zelfs als het later blijkt dat hij gewoon lui was.

2. De Opdracht voor de AI

De AI krijgt een set van kleine verhalen (werelden) en een basisregel (bijv. "Als je een rode pet draagt, ben je normaal gesproken blij").

In sommige verhalen dragen mensen een rode pet, maar zijn ze niet blij.
De AI moet een uitzonderingsregel bedenken. Bijvoorbeeld: "Mensen met een rode pet zijn alleen niet blij als ze ook een blauwe sjaal dragen."
De AI moet deze uitzondering zo simpel en zuinig mogelijk houden. Als de AI zegt "Iedereen is een uitzondering", dan heeft hij gewonnen, maar dat is niet slim. De AI moet de minimale aantal uitzonderingen vinden die het verhaal redden.

3. De Test: Waarom is dit belangrijk?

Vroeger keken we alleen of een AI het antwoord "goed" of "fout" had. Maar dit paper zegt: "Nee, dat is te simpel."
Stel, een AI lost het probleem op door te zeggen: "Iedereen met een rode pet, een blauwe sjaal, een groene schoen en een gebroken horloge is een uitzondering." Dat werkt technisch gezien (het is waar), maar het is een slordige oplossing. Het is alsof je een deur dichtdoet met een enorme betonnen muur in plaats van een simpele sleutel.

De onderzoekers kijken naar drie dingen:

Werkt het? (Is de oplossing logisch correct?)
Is het zuinig? (Hoeveel "uitzonderingen" moet de AI maken om het verhaal te redden?)
Is het slim? (Werkt de regel ook in nieuwe, onbekende situaties, of was het gewoon een gelukstreffer?)

4. Wat hebben ze ontdekt? (De Verdict)

Ze hebben 11 van de slimste AI-modellen ter wereld getest. Hier zijn de belangrijkste bevindingen, vertaald:

De "Slordige" Winnaars: Sommige modellen (zoals GPT-5.4) vonden oplossingen die bijna perfect waren qua "zuinigheid" (ze maakten heel weinig uitzonderingen). Maar ze deden dit door enorme, ingewikkelde regels te bedenken. Het was alsof ze een ingewikkeld recept schreven voor een boterham. Het werkte, maar het was niet elegant. Als je ze een nieuwe situatie gaf, faalden ze vaak.
De "Stevige" Werkers: Andere modellen (zoals Opus-4.6 en DSR) maakten iets meer uitzonderingen dan het absolute minimum, maar hun regels waren simpel en robuust. Ze hielden het hoofd koel in nieuwe situaties.
Het "Brittels" Probleem: Veel modellen konden de regels perfect toepassen op de oefenopdrachten, maar zodra ze een nieuwe situatie kregen (een "holdout"), vielen ze in elkaar. Ze hadden de regels niet echt begrepen; ze hadden ze gewoon uit het hoofd geleerd voor de oefenopdracht.
De "Waakzame Rechter" is het moeilijkst: In de scenario's waar je niet zeker weet wat er gebeurt (ABD-Skeptical), faalden veel modellen. Ze durfden geen risico's te nemen en maakten te veel uitzonderingen, of ze probeerden een regel die te specifiek was en faalde zodra er één ding anders was.

5. De Grootste Les

De boodschap van dit paper is: Simpel is beter dan slim.

Een AI die een ingewikkelde, 100 regels lange uitzondering bedenkt om een probleem op te lossen, is niet per se slimmer dan een AI die een simpele, 5 regels lange uitzondering bedenkt. Sterker nog, de simpele AI is vaak beter in het omgaan met nieuwe situaties.

Het paper laat zien dat we AI niet alleen moeten testen op "is het antwoord goed?", maar ook op "is het antwoord elegant en robuust?". Net zoals een goede leraar niet alleen kijkt of een kind het antwoord heeft, maar ook of het kind het echt heeft begrepen.

Kortom: We hebben een nieuwe meetlat voor AI-bedacht die kijkt of AI's echt logisch kunnen nadenken over uitzonderingen, of dat ze gewoon aan het gissen en memoriseren zijn. En tot nu toe: ze zijn goed in het memoriseren, maar nog niet perfect in het echt begrijpen van de "geest" van de regel.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het artikel introduceert ABD, een nieuwe benchmark voor abductief redeneren (het afleiden van de beste verklaring voor waarnemingen) binnen de context van default-reasoning (standaardredenering).

De Kern: In kennisrepresentatie worden domeinen vaak gemodelleerd met regels die "normaal" gelden, maar uitzonderingen toestaan. Wanneer observaties in conflict zijn met een standaardtheorie, moet een systeem een uitzonderingsregel (een abnormaliteitspredikaat $Ab(x)$ ) formuleren die de inconsistentie oplost.
De Uitdaging: Bestaande benchmarks missen vaak drie cruciale eigenschappen:
1. Ze vereisen geen echt relationeel redeneren van de eerste orde (met kwantoren).
2. Ze bieden geen eenduidige, door een solver controleerbare verificatie.
3. Ze leveren geen informatieve foutanalyses, maar slechts een binair "juist/fout"-oordeel.
Het Doel: Het ontwikkelen van een taak waarbij modellen een compacte, eerste-orde formule $\alpha(x)$ moeten genereren die definieert welke objecten "abnormaal" zijn, zodat de theorie consistent wordt met de observaties, terwijl het aantal uitzonderingen (parsimonie) minimaal blijft.

2. Methodologie en Opzet

De auteurs hebben een suite van synthetische problemen ontworpen over eindige relationele werelden.

A. De Taakstructuur

Elk voorbeeld bestaat uit:

Een achtergrondtheorie $\Theta$ (een verzameling eerste-orde axioma's) die een default-regel bevat met een abnormaliteitspredikaat $Ab(x)$ .
Een reeks waarnemingswerelden (kleine eindige structuren) met feiten over predikaten ( $P, Q, R, S$ ).
Doel: Het model moet een formule $\alpha(x)$ outputten zodanig dat $Ab(x) \leftrightarrow \alpha(x)$ de theorie in alle werelden voldoet (satisfiable maakt), met als secundair doel het minimaliseren van het aantal objecten dat als abnormaal wordt gemarkeerd.

B. Drie Observatie-regimes

Het artikel introduceert drie scenario's die verschillen in hoe ze omgaan met ontbrekende informatie (onbekende atomen):

ABD-Full (Gesloten Wereld): Alle feiten zijn bekend. Een oplossing is geldig als de theorie in alle werelden klopt.
ABD-Partial (Existentiële Completie): Sommige feiten zijn onbekend. Een oplossing is geldig als er minstens één manier is om de onbekende feiten in te vullen (completeren) zodat de theorie klopt. De kosten worden geminimaliseerd in het beste geval.
ABD-Skeptical (Universele Completie): Een oplossing is alleen geldig als de theorie klopt voor elke mogelijke invulling van de onbekende feiten. De kosten worden gemeten in het slechtst mogelijke geval (worst-case). Dit vereist robuustere regels.

C. Validatie en Metrieken

Exacte Verificatie: Omdat de domeinen klein en eindig zijn, wordt de geldigheid en de kostprijs exact berekend met behulp van SMT-solvers (Z3).
Parsimonie (Schaarste): In plaats van alleen "juist/fout" te kijken, wordt de prestatie gemeten aan de hand van de gap: het verschil tussen het aantal uitzonderingen in het model en een door de solver berekende ondergrens (de theoretisch minimale hoeveelheid uitzonderingen).
Complexiteit: De grootte van de gegenereerde formules (AST-grootte) wordt gemeten om te voorkomen dat modellen "oplossingen" vinden door simpelweg elk object apart te behandelen (case-splitting) in plaats van een compacte regel te vinden.
Generalisatie: Er wordt getest op holdout-werelden (nieuwe werelden die niet in de training zaten) om te zien of de regels generaliseren of dat ze overgefit zijn op de trainingsdata.

3. Belangrijkste Bijdragen

Formalisatie van ABD: Een nieuwe benchmark voor default-uitzonderingsabductie met drie verschillende semantische regimes (Full, Partial, Skeptical) die allemaal door een solver kunnen worden gecontroleerd.
Kostengebaseerde Scoring: Introductie van metrieken die kijken naar de "gap" ten opzichte van een solver-ondergrens en de syntactische complexiteit, wat een veel fijner beeld geeft dan alleen validiteit.
Gecontroleerde Moeilijkheidsgraad: Een generator die instanties creëert waarbij simpele shortcuts falen, en die "competitor-formules" elimineert via een CEGIS-achtig (Counterexample-Guided Inductive Synthesis) proces.
Uitgebreide Evaluatie: Een evaluatie van 11 state-of-the-art LLMs (waaronder GPT-5.4, Opus-4.6, Gemini-3.1, DSR, etc.) op 600 instanties.

4. Resultaten en Bevindingen

De evaluatie van de 11 modellen levert enkele opvallende patronen op:

Prestatieprofielen: Modellen splitsen zich in twee groepen:
- Hoge Validiteit, Compact: Modellen zoals Opus-4.6, Gemini-3.1, DSR en Grok4.1f bereiken hoge validiteit (>90%) met relatief compacte formules (AST-grootte in de lage tiener). Ze hebben echter nog steeds een "gap" van ongeveer 1 tot 1,5 extra uitzondering per wereld ten opzichte van de solver-optimum.
- Lage Gap, Grote Formules: GPT-5.4 bereikt de beste kosten-gaps (dicht bij de optimum), maar betaalt daarvoor met zeer grote formules (gemiddelde AST ~66) en een lagere validiteit.
Generalisatie en Falen:
- ABD-Full & ABD-Partial: Het belangrijkste falen is parsimonie-inflatie. Modellen vinden regels die op de trainingsdata werken, maar op nieuwe data (holdout) veel meer objecten als abnormaal markeren dan nodig (de gap verdubbelt vaak).
- ABD-Skeptical: Het belangrijkste falen is validiteitsbribeelheid. Regels die op de trainingsdata universeel geldig lijken, breken vaak op holdout-data. Modellen die wel overleven, tonen minder inflatie van de kosten, wat suggereert dat de "worst-case" eis fungeert als een regularisator.
Formulegrootte vs. Generalisatie: Er is een sterke correlatie tussen formulegrootte en generalisatie. Zeer lange formules (die vaak "case-splitting" gebruiken) hebben een lagere trainingsgap, maar falen catastraal op holdout-data (slechts ~28% validiteit tegenover ~85% voor kortere formules).

5. Betekenis en Conclusie

Het artikel concludeert dat ABD nog niet opgelost is door huidige LLM's, ondanks hun vermogen om syntactisch correcte logische formules te genereren.

De Kernuitdaging: Het gaat niet alleen om het vinden van een geldige oplossing, maar om het vinden van een compacte, generaliserende regel die een balans vindt tussen consistentie en schaarste.
Nieuwe Inzichten:
- Validiteit alleen is een onvoldoende metriek; kosten en complexiteit zijn cruciaal.
- Robuuste semantiek (zoals in ABD-Skeptical) verandert het type fouten van "te veel uitzonderingen" naar "geen geldige oplossing", wat aangeeft dat de taak moeilijker wordt maar de gevonden oplossingen robuuster zijn.
- Modellen neigen tot "brittle" oplossingen (kwetsbaar voor kleine veranderingen in de data) in plaats van echte relationele patronen te leren.

De ABD-benchmark biedt een gecontroleerde testomgeving om te bestuderen hoe leer-systemen (en LLM's) default-uitzonderingsregels verwerven, en markeert een stap in de richting van meer transparante en verifieerbare redeneersystemen. De auteurs kondigen aan dat ze de dataset en de evaluatiepipeline na het review-proces openbaar zullen maken.