INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die probeert een geheim recept te vinden. Je krijgt een reeks foto's van verschillende keukens (de "werelden"). Op elke foto zie je welke ingrediënten er zijn (de "predicaten") en welke gerechten er op tafel staan als "goed" en welke als "slecht" (de "doel").

Je taak is om één enkele, korte zin te schrijven (een formule) die precies uitlegt waarom de goede gerechten goed zijn en de slechte slecht, ongeacht welke keuken je bekijkt.

Dit is de kern van het nieuwe onderzoek INDUCTION, gepresenteerd door Serafim Batzoglou. Hier is wat ze hebben ontdekt, vertaald naar alledaags taalgebruik:

1. Het Probleem: Slimme maar "Opschietende" Detectives

Grote kunstmatige intelligenties (zoals de modellen waar we nu mee praten) zijn erg goed in het maken van zinnen die er logisch uitzien. Maar vaak zijn ze als een student die voor een examen leert door het hele boek uit zijn hoofd te leren, in plaats van het echte concept te begrijpen.

Als je ze vraagt om een regel te vinden, kunnen ze een antwoord geven dat technisch gezien correct is, maar zo lang en ingewikkeld is dat het meer lijkt op een lijst met uitzonderingen dan op een echte regel.

De metafoor: Stel je voor dat je vraagt: "Wat maakt een vogel een vogel?"
- Een slim antwoord: "Het heeft veren en vliegt."
- Een "opgeblazen" (bloat) antwoord: "Het is een vogel als het een papegaai is, OF als het een duif is die op een tak zit, OF als het een arend is die in de ochtend vliegt, OF als het... [en zo gaat het 50 regels verder]."
  Het tweede antwoord is technisch misschien waar voor de foto's die je liet zien, maar het is geen echte regel. Het is gewoon een lijst met uitzonderingen.

2. De Oplossing: De INDUCTION Test

De auteurs hebben een nieuwe test ontwikkeld genaamd INDUCTION. Het is een soort "examen" voor AI-modellen om te zien of ze echt logisch kunnen redeneren in plaats van alleen maar te raden.

De test heeft drie verschillende soorten opgaven, alsof je de detective drie verschillende scenario's geeft:

Volledige Observatie (FullObs): Je krijgt alle foto's van de keukens. Je moet de regel vinden die op alle foto's werkt. Dit is als een gewone zoektocht.
Contrastieve Inductie (CI): Je krijgt twee groepen foto's: "Ja-werelden" (waar de regel geldt) en "Nee-werelden" (waar de regel niet geldt). Je moet een regel vinden die perfect werkt voor de "Ja"-groep, maar faalt voor de "Nee"-groep.
- De valstrik: De makers van de test hebben speciaal "Nee"-foto's gemaakt die lijken op de "Ja"-foto's, maar net iets anders zijn. Als de AI een simpele, vals-slimme regel bedenkt (zoals "alle rode dingen zijn goed"), zal die falen op de "Nee"-foto's. Dit dwingt de AI om dieper na te denken.
Gedeeltelijke Observatie (EC): Je krijgt foto's, maar sommige details zijn onzichtbaar (alsof er een doek over de tafel ligt). De AI moet een regel bedenken die werkt, zelfs als ze niet zeker weten of een bepaald ingrediënt er is of niet. Ze moeten redeneren over wat zou kunnen waar zijn.

3. De Belangrijkste Ontdekking: Korte Antwoorden zijn Beter

De meest interessante bevinding van het onderzoek is niet alleen of de AI het juiste antwoord gaf, maar hoe het antwoord eruitzag.

Ze maten de "lengte" van de antwoorden. Ze ontdekten iets verrassends:

AI-modellen die korte, strakke antwoorden gaven (zoals "alle rode vogels"), waren veel beter in het voorspellen van nieuwe situaties die ze nog nooit hadden gezien.
AI-modellen die lange, ingewikkelde antwoorden gaven (de "opgeblazen" antwoorden), faalden vaak bij nieuwe situaties. Ze hadden de regels simpelweg uit hun hoofd geleerd voor de specifieke foto's, in plaats van het patroon te begrijpen.

De les: Als een AI een antwoord geeft dat te lang is, is het waarschijnlijk dat het niet echt begrijpt wat het doet. Het is als iemand die een code kraakt door elke mogelijke combinatie in te voeren in plaats van de sleutel te vinden.

4. Waarom is dit belangrijk?

Vroeger keken we alleen of een AI het antwoord "goed" of "fout" had. Nu zien we dat we ook moeten kijken of het antwoord eenvoudig en elegant is.

Dit onderzoek helpt ons te begrijpen of AI's echt kunnen "leren" en "concluderen" (zoals een mens in de wetenschap of wiskunde doet), of dat ze alleen maar patronen in tekst nabootsen. Het laat zien dat de beste AI's niet degenen zijn die de langste antwoorden geven, maar degenen die de kortste, krachtigste regels kunnen vinden die overal werken.

Kortom: INDUCTION is een nieuwe manier om te testen of een AI echt slim is, of dat het alleen maar slim doet door een heel dik boekje met uitzonderingen uit te mollen. De winnaars zijn de modellen die de korte, elegante oplossing vinden.

Each language version is independently generated for its own context, not a direct translation.

Titel: INDUCTION: Synthese van concepten in eindige structuren in de eerste-orde logica

Auteur: Serafim Batzoglou
Datum: Preprint, maart 2026

1. Probleemstelling

Hoewel grote taal- en redeneermodellen (LLMs) in staat zijn om syntactisch correcte formules in de eerste-orde logica (FOL) te genereren, ontbreekt er een robuuste evaluatie van hun vermogen om correcte en compacte verklaringen te produceren onder volledig gespecificeerde, mechanisch controleerbare semantics.

Het paper introduceert het probleem van synthese van concepten in eindige structuren:

Input: Een set kleine, eindige relationele werelden (structuren) met een vast relationeel handtekening (predicaten $P, Q, R, S$ ). In elke wereld is een doelpredicaat $T(x)$ extensieel gegeven (een lijst van elementen die "waar" zijn).
Taak: De leerder (het model) moet een enkele FOL-formule $\phi(x)$ genereren die het doelpredicaat $T$ uniform verklaart over alle gegeven werelden.
Validatie: Omdat de domeinen eindig zijn, kan correctheid exact worden gecontroleerd via model-checking en SMT-oplossers (zoals Z3). Dit elimineert ambiguïteit die vaak voorkomt bij natuurlijke taal-evaluaties.

2. Methodologie: De INDUCTION Benchmark

De auteurs introduceren INDUCTION, een benchmark-suite die drie verschillende taakvarianten omvat om verschillende faalmodi te isoleren. Alle taken delen dezelfde taal, generator en evaluatiepijplijn.

De Drie Taakvarianten:

FullObs (Volledige Observatie):
- Alle predicaatfeiten in de werelden zijn volledig waargenomen.
- De formule $\phi$ moet exact overeenkomen met het doel $T$ in elke trainingswereld.
- Doel: Testen van het vermogen om een relationeel concept te generaliseren over meerdere structuren zonder ruis.
CI (Contrastieve Inductie / Zendo-stijl):
- Werelden zijn verdeeld in YES-werelden (waar de regel geldt) en NO-werelden (waar de regel niet geldt).
- De formule moet exact matchen met $T$ in alle YES-werelden, maar mag niet exact matchen met $T$ in enige NO-wereld (d.w.z. het moet minstens één object verkeerd classificeren in elke NO-wereld).
- Doel: Testen van het vermogen om discriminatieve hypothesen te vormen en negatief bewijs te gebruiken. De generator gebruikt "valstrikken" om modellen die op oppervlakkige shortcuts vertrouwen, te laten falen.
EC (Existentiële Completie / Partial Observation):
- Sommige grond-atomen (feiten over predikaten) zijn onbekend.
- Een formule is geldig als er voor elke wereld minstens één manier bestaat om de onbekende feiten in te vullen (completie) zodat de formule overeenkomt met de waargenomen labels.
- Doel: Testen van redeneren onder onvolledige informatie.

Generatie en Evaluatiemetrics:

Controleerbare Moeilijkheid: De generator bouwt werelden die specifiek bedoeld zijn om "distractor"-hypothesen (simpele shortcuts) uit te sluiten, terwijl het "gouden" (gold) concept behouden blijft.
Bloat-aware Scoring: Een kerninzicht is dat nauwkeurigheid alleen niet volstaat. Modellen kunnen correcte formules genereren die extreem lang zijn en gebaseerd zijn op "case-splitting" (het opsommen van specifieke gevallen in plaats van een abstracte regel).
- De benchmark gebruikt budgeted accuracy ( $Acc@\Delta$ ): het percentage correcte oplossingen waarbij de AST-grootte (syntactische complexiteit) binnen een bepaalde marge ( $\Delta$ ) van de gouden formule ligt.
- Bloat-rate: Het percentage correcte oplossingen dat aanzienlijk groter is dan de gouden formule.

3. Belangrijkste Bijdragen

Formalisatie van een Unificatie: Een gestandaardiseerde setting voor concept-synthese in FOL met drie taakvarianten (FullObs, CI, EC) met exacte, solver-verifieerbare semantics.
Geavanceerde Generatie: Methoden voor het controleren van moeilijkheidsgraden, inclusief "trap"-constructies voor contrastieve taken en diagnostics voor de versie-ruimte (hoeveel hypothesen zijn nog consistent?).
Nieuwe Evaluatiemetrics: Een focus op parsimonie (krapheid). De paper toont aan dat het belonen van compacte formules essentieel is om echte conceptuele abstractie te onderscheiden van overfitting via uitgebreide lijsten van uitzonderingen.
Empirische Resultaten: Een uitgebreide evaluatie van state-of-the-art modellen (GPT-5.4, GPT-5.2, Grok4, Claude Opus, etc.) die inzicht geeft in hun sterke en zwakke punten bij logisch redeneren.

4. Resultaten en Bevindingen

Algemene Prestaties:

Geen enkel model domineert alle drie de taken.
GPT-5.4 presteert over het algemeen het beste, vooral op EC (93.5% validiteit) en CI (76.0% budgeted accuracy).
Grok4 scoort hoog op FullObs (50.7% overall accuracy), maar heeft een lagere dekking (coverage) en faalt vaak bij het retourneren van output.
GPT-4o presteert verrassend slecht (0% FullObs accuracy), wat suggereert dat deze taken specifieke capaciteiten vereisen die niet betrouwbaar worden opgewekt door standaard prompting.

De "Bloat" en Generalisatie:

Er is een scherpe correlatie gevonden tussen formulegrootte en generalisatievermogen.
Modellen die "bloated" (opgeblazen) formules genereren (veel groter dan de gouden formule), presteren vaak goed op de trainingsdata, maar falen dramatisch op held-out werelden (nieuwe data).
- Voorbeeld: Bij FullObs generaliseerden "near-gold" formules (kleine afwijking van de gouden formule) in 76-98% van de gevallen, terwijl "above-gold" formules (groot) slechts in 14-53% van de gevallen generaliseerden.
Dit bewijst dat "bloat" vaak een teken is van overfitting op de specifieke trainingswerelden in plaats van het leren van het onderliggende concept.

Verschillen tussen Taken:

FullObs: Toont een scherpe "cliff" in moeilijkheid wanneer de quantifier-diepte (QD) van 1 naar 2 gaat.
CI: De moeilijkheid zit vaak in het vermijden van "valstrikken" in NO-werelden. Modellen die op shortcuts vertrouwen, falen hier.
EC: Vereist het redeneren over onbekende variabelen. GPT-5.4 toont hier de grootste verbetering ten opzichte van eerdere versies, hoewel het nog steeds vaak opgeblazen formules gebruikt om de existentiële voorwaarden te voldoen.

5. Betekenis en Conclusie

Het paper concludeert dat validiteit alleen geen voldoende indicator is voor geleerde structuur. Een model kan een consistent antwoord geven door een enorme lijst van uitzonderingen op te tellen, maar dit getuigt niet van inzicht.

Parsimonie als proxy voor ontdekking: Het vermogen om een beknopte, stabiele hypothese te vinden die onder nieuwe bewijzen standhoudt, is een kenmerk van effectieve wetenschappelijke en wiskundige ontdekking.
Toekomstige richting: Benchmarks zoals INDUCTION, die mechanisch verifieerbaar zijn en straffen voor complexiteit, zijn noodzakelijk om echte vooruitgang in logische generalisatie te meten, in plaats van alleen het vermogen om lange, correcte maar triviale antwoorden te genereren.

De auteurs benadrukken dat hun resultaten wijzen op een fundamenteel verschil tussen modellen die "case-splitting" toepassen (overfitting) en modellen die echte abstractie en inductie toepassen. De INDUCTION benchmark biedt een methodologie om dit onderscheid kwantitatief te maken.