HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een raadsel moet oplossen. Je hebt een paar aanwijzingen (de observaties), maar die aanwijzingen zijn vaag. Ze passen bij tien verschillende verdachten.

In de echte wetenschap gebeurt dit vaak: één set gegevens kan worden verklaard door tien verschillende theorieën. Het probleem met huidige kunstmatige intelligentie (AI) is dat ze vaak maar één antwoord geeft, alsof ze zeggen: "Het was zeker de tuinman!" terwijl ze de andere negen verdachten volledig negeren.

Deze paper introduceert HypoSpace, een nieuwe manier om AI te testen. In plaats van te kijken of het AI-model het juiste antwoord heeft, kijken we of het AI-model alle mogelijke antwoorden kan bedenken.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Mode Collapse" (De Moeite van de Kip)

Stel je voor dat je een kip hebt die eieren legt. Als je de kip vraagt om eieren te leggen, legt ze er misschien wel honderd. Maar als je goed kijkt, zijn het allemaal exact hetzelfde ei. Ze is niet creatief; ze herhaalt maar één patroon.

Dit noemen de auteurs "Mode Collapse".

Huidige AI: Als je een AI vraagt om alle mogelijke verklaringen voor een wetenschappelijk fenomeen te bedenken, produceert ze vaak 100 antwoorden. Maar als je ze goed bekijkt, zijn 95 ervan bijna identiek. Ze vinden één oplossing en blijven daar maar omheen cirkelen.
Het resultaat: Ze zijn "correct" (het ei is een ei), maar ze zijn niet "uniek" en ze missen de andere 95 mogelijke eieren.

2. De Oplossing: HypoSpace (De "Alles-of-Niets" Test)

De auteurs hebben een testbed (een benchmark) gemaakt genaamd HypoSpace. Ze hebben drie verschillende puzzels bedacht waar de AI aan moet werken:

Causale puzzels: Welke knoppen in een machine drukken op welke andere knoppen?
3D-puzzels: Hoe ziet een bouwwerk eruit van onderen, als je alleen de schaduw van boven ziet? (En het moet voldoen aan de zwaartekracht!).
Genetische puzzels: Welke formule legt uit waarom twee ouders een bepaald kind krijgen?

Het mooie aan deze puzzels is dat de makers precies weten hoeveel mogelijke oplossingen er zijn (bijvoorbeeld: "Er zijn precies 100 mogelijke bouwwerken die bij deze schaduw passen").

3. De Drie Scoren (Hoe meten we het?)

In plaats van alleen te kijken of het antwoord goed is, kijken ze naar drie dingen:

Geldigheid (Validity): Is het antwoord wel een echte oplossing? (Is het een ei of een steen?)
- Resultaat: De slimste AI's zijn hier vaak goed in. Ze geven geen onzin.
Uniekheid (Uniqueness): Bedenkt de AI verschillende dingen, of herhaalt ze maar hetzelfde? (Ligt er één ei of tien verschillende?)
- Resultaat: Hier zakken de AI's hard in. Ze worden saai.
Herstel/Dekking (Recovery): Hoeveel van de totaal mogelijke oplossingen heeft de AI gevonden? (Heeft ze 1 van de 100 eieren gevonden, of 90?)
- Resultaat: Dit is waar het misgaat. Naarmate de puzzel moeilijker wordt (meer mogelijke oplossingen), vinden de AI's steeds minder van de totale set. Ze raken de "naald in de hooiberg" kwijt.

4. Waarom gebeurt dit? (De "Populaire" Antwoorden)

De paper legt uit dat AI-modellen zijn getraind om de "meest waarschijnlijke" antwoorden te geven. Stel je voor dat je een restaurant hebt waar 99% van de mensen pasta bestelt. De kok (de AI) zal dus bijna alleen maar pasta maken, omdat dat het veiligste en populairste is.

Zelfs als er 50 andere gerechten mogelijk zijn die ook smaken, maakt de kok ze niet, omdat hij bang is om af te wijken van het populaire pad. De AI "kijkt niet verder dan haar neus reikt" naar de minder populaire, maar wel geldige oplossingen.

5. De Oplossing: "Stratified Decoding" (De Koffiezet-test)

De auteurs proberen een simpele truc om dit op te lossen. Ze zeggen tegen de AI: "Bedenk eerst 10 simpele oplossingen, dan 10 iets complexere, en dan 10 hele complexe."

Dit is alsof je de kok dwingt om: "Maak eerst 10 pasta's, dan 10 salades, en dan 10 desserts," in plaats van dat hij maar pasta blijft maken.

Resultaat: Dit helpt! De AI vindt ineens veel meer van de "vergeten" oplossingen. Het is een manier om de AI te dwingen om de hele hooiberg te doorzoeken in plaats van alleen de plek waar de naald het vaakst ligt.

Conclusie: Wat betekent dit voor de toekomst?

Deze paper zegt niet dat AI dom is. Ze zeggen: "AI is goed in het vinden van een goed antwoord, maar slecht in het verkennen van alle mogelijke antwoorden."

Voor de wetenschap is dit gevaarlijk. Als een AI alleen het eerste goede antwoord geeft, missen we misschien de echte doorbraak die in een van de andere 99 oplossingen verstopt zat. HypoSpace is dus een diagnose-apparaat om te zien of AI's echt kunnen "nadenken" over alle mogelijkheden, of dat ze gewoon een beetje een "gebroken record" zijn dat steeds hetzelfde liedje zingt.

Kort samengevat:

Huidige AI: Vindt het juiste antwoord, maar herhaalt het steeds.
HypoSpace: Een test die laat zien hoeveel andere goede antwoorden de AI mist.
De les: We moeten AI's leren om niet alleen het "populaire" antwoord te kiezen, maar om de hele wereld van mogelijke antwoorden te verkennen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "HypoSpace: A Diagnostic Benchmark for Set-Valued Hypothesis Generation under Underdetermination and Sublinear Coverage Bounds" in het Nederlands.

Titel

HypoSpace: Een diagnostisch benchmark voor het genereren van hypothesen met meerdere waarden onder onbepaaldheid en sublineaire dekking.

1. Het Probleem: Onbepaaldheid in Wetenschappelijk Redeneren

Veel wetenschappelijke inferentieproblemen zijn onbepaald (underdetermined): dezelfde observaties kunnen worden verklaard door meerdere, mechanistisch verschillende hypothesen. Een klassiek voorbeeld is EEG-bronbeelding, waar oneindig veel neurale bronverdelingen identieke scalp-potentialen kunnen produceren.

Huidige benchmarks voor Large Language Models (LLMs) belonen meestal slechts de juistheid van één enkel antwoord. Dit laat een cruciale vraag onbeantwoord: kunnen LLMs systematisch de ruimte van alternatieve, geldige hypothesen verkennen? Bestaande modellen vertonen vaak een "mode collapse" (modale instorting), waarbij ze wel een geldig antwoord vinden, maar falen in het genereren van een diverse set van alle mogelijke geldige oplossingen.

2. Methodologie: Het HypoSpace Framework

HypoSpace is een diagnostische suite die LLMs behandelt als samplers over een eindige ruimte van hypothesen. Het framework elimineert subjectiviteit door deterministische validators en exact opgesomde "ground truth"-oplossingsruimtes te gebruiken.

De Drie Metrieken

Het paper introduceert drie complementaire metrieken om het gedrag van modellen te evalueren:

Validiteit (VR - Validity Rate): Het percentage van de gegenereerde hypothesen dat consistent is met de observaties. Dit meet de juistheid.
Uniekheid (NR - Novelty/Uniqueness Rate): Het percentage van de gegenereerde hypothesen dat uniek is (niet-redundant) binnen de set van voorstellen. Dit meet de originaliteit.
Herstel/Decking (RR - Recovery Rate): Het percentage van de volledige, opgesomde set van geldige hypothesen ( $H_O$ ) dat door het model wordt gedekt. Dit meet de bekwaamheid om de ruimte te verkennen.

De Drie Gestructureerde Domeinen

HypoSpace test modellen op drie domeinen waar de volledige set van geldige hypothesen exact kan worden opgesomd:

Causale Grafische Inferentie: Het afleiden van alle mogelijke DAG's (Directed Acyclic Graphs) die consistent zijn met waarnemingen van single-node interventies.
3D Voxel-reconstructie onder zwaartekracht: Het reconstrueren van 3D-structuren uit top-down projecties, waarbij fysieke constraints (zoals dat blokken niet in de lucht zweven) moeten worden voldaan.
Booleaanse Genetische Interacties: Het voorstellen van Booleaanse expressies die fenotypische observaties verklaren, waarbij semantisch equivalente expressies worden genormaliseerd via een canonicalizer.

3. Belangrijkste Bijdragen

Theoretische Formulering: Het kader van "set-valued inference" (inferentie met meerdere waarden) onder onbepaaldheid, met drie diagnostische indicatoren die juistheid scheiden van exploratievermogen.
Gestuurde Diagnostische Suite: Drie taken met exact opgesomde oplossingsruimtes, wat objectieve meting mogelijk maakt zonder gebruik te maken van "LLM-as-judge".
Empirische Bevindingen: Een systematische studie die aantoont dat zelfs geavanceerde "redenerende" modellen last hebben van mode collapse.
Methodologische Innovatie: Een herbruikbaar framework voor het analyseren van generatiecapaciteiten, ontworpen als een gecontroleerde probe in plaats van een competitieve leaderboard.

4. Resultaten en Analyse

Algemene Prestaties

Hoge Validiteit, Lage Dekking: Frontier-modellen (zoals GPT-5, Gemini-2.5-Pro, Claude-Opus-4) behouden vaak een hoge Validiteit (VR), maar vertonen een scherpe daling in Uniekheid (NR) en Herstel (RR) naarmate de grootte van de hypotheseruimte ( $|H_O|$ ) toeneemt.
Mode Collapse: Modellen neigen om in een klein subsetje van geldige verklaringen te blijven hangen in plaats van de volledige ruimte systematisch te verkennen. Dit gebeurt zelfs bij modellen die expliciete redeneringstappen gebruiken.
Redenerende vs. Niet-Redenerende Modellen: Redenerende modellen presteren over het algemeen beter dan instructie-geoptimaliseerde modellen (zoals LLaMA-3.3-70B), maar lijden toch aan hetzelfde fundamentele probleem van beperkte dekking bij complexe taken.

Theoretische Oorzaak

Het paper biedt een theoretische verklaring voor deze collapse: LLMs genereren een piekverdeling (peaked distribution) over de hypotheseruimte. Zelfs als alle hypothesen een niet-nul kans hebben, is de kans dat een model een hypothees met een zeer kleine waarschijnlijkheid (de "staart" van de verdeling) genereert, verwaarloosbaar binnen een realistisch sampling-budget. Hierdoor blijft de dekking (RR) laag, zelfs als de validiteit (VR) hoog is.

Oplossing: Gelaagde Decoding (Stratified Decoding)

Om de bias van modellen naar eenvoudige hypothesen tegen te gaan, introduceert het paper complexity-stratified decoding.

In plaats van vrij te sample, wordt het model gedwongen hypothesen te genereren binnen specifieke complexiteitsklassen (bijv. aantal edges, aantal operatoren).
Resultaat: Deze methode verbetert de dekking van complexe hypothesen aanzienlijk voor sommige modellen (bijv. +17,2% voor Grok-4 op complexe taken), maar kan ten koste gaan van de dekking van eenvoudige hypothesen. Het toont aan dat het herschikken van de sampling-verdeling effectiever is dan simpelweg meer samples trekken.

Real-World Validatie

Het framework werd toegepast op geanonimiseerde real-world genetische data (gist-vesikelvervoer). Ook hier bleek dat de set van geldige hypothesen onbepaald blijft, en dat LLMs dezelfde mode-collapse vertonen als in de synthetische setting. Sterke modellen konden de volledige set van geldige hypothesen vinden, terwijl zwakkere modellen wel diverse output produceerden maar geen enkele consistent was (VR = 0%).

5. Significatie en Conclusie

HypoSpace verschuift de focus van het evalueren van "het juiste antwoord vinden" naar het evalueren van "het verkennen van de ruimte van mogelijke antwoorden".

Diagnostisch Inzicht: Het paper toont aan dat hoge nauwkeurigheid (validiteit) een vals gevoel van veiligheid kan geven; modellen kunnen "correct" zijn maar wetenschappelijk beperkt door hun onvermogen om alternatieve mechanismen te bedenken.
Toekomstige Richting: De studie suggereert dat het verbeteren van wetenschappelijk redeneren bij AI niet alleen gaat om het trainen van betere redeneermodellen, maar om het ontwikkelen van sampling-strategieën die de piekverdeling doorbreken en de exploratie van de oplossingruimte activeren.
Open Science: De code en data zijn openbaar gemaakt om reproduceerbaarheid en verdere ontwikkeling van sampling-strategieën te stimuleren.

Kortom, HypoSpace biedt een noodzakelijke diagnose voor de beperkingen van huidige AI-systemen in onbepaalde wetenschappelijke contexten en biedt een routekaart voor het verbeteren van hun exploratieve capaciteiten.