HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Dit paper introduceert HypoSpace, een diagnostische suite die de creativiteit van taalmodellen evalueert door hun vermogen te meten om diverse, unieke en volledige sets van hypotheses te genereren in onderbepaalde wetenschappelijke scenario's, waarbij wordt aangetoond dat modellen vaak in een 'mode collapse' terechtkomen die door traditionele correctheidsmetingen onopgemerkt blijft.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een raadsel moet oplossen. Je hebt een paar aanwijzingen (de observaties), maar die aanwijzingen zijn vaag. Ze passen bij tien verschillende verdachten.

In de echte wetenschap gebeurt dit vaak: één set gegevens kan worden verklaard door tien verschillende theorieën. Het probleem met huidige kunstmatige intelligentie (AI) is dat ze vaak maar één antwoord geeft, alsof ze zeggen: "Het was zeker de tuinman!" terwijl ze de andere negen verdachten volledig negeren.

Deze paper introduceert HypoSpace, een nieuwe manier om AI te testen. In plaats van te kijken of het AI-model het juiste antwoord heeft, kijken we of het AI-model alle mogelijke antwoorden kan bedenken.

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Mode Collapse" (De Moeite van de Kip)

Stel je voor dat je een kip hebt die eieren legt. Als je de kip vraagt om eieren te leggen, legt ze er misschien wel honderd. Maar als je goed kijkt, zijn het allemaal exact hetzelfde ei. Ze is niet creatief; ze herhaalt maar één patroon.

Dit noemen de auteurs "Mode Collapse".

  • Huidige AI: Als je een AI vraagt om alle mogelijke verklaringen voor een wetenschappelijk fenomeen te bedenken, produceert ze vaak 100 antwoorden. Maar als je ze goed bekijkt, zijn 95 ervan bijna identiek. Ze vinden één oplossing en blijven daar maar omheen cirkelen.
  • Het resultaat: Ze zijn "correct" (het ei is een ei), maar ze zijn niet "uniek" en ze missen de andere 95 mogelijke eieren.

2. De Oplossing: HypoSpace (De "Alles-of-Niets" Test)

De auteurs hebben een testbed (een benchmark) gemaakt genaamd HypoSpace. Ze hebben drie verschillende puzzels bedacht waar de AI aan moet werken:

  1. Causale puzzels: Welke knoppen in een machine drukken op welke andere knoppen?
  2. 3D-puzzels: Hoe ziet een bouwwerk eruit van onderen, als je alleen de schaduw van boven ziet? (En het moet voldoen aan de zwaartekracht!).
  3. Genetische puzzels: Welke formule legt uit waarom twee ouders een bepaald kind krijgen?

Het mooie aan deze puzzels is dat de makers precies weten hoeveel mogelijke oplossingen er zijn (bijvoorbeeld: "Er zijn precies 100 mogelijke bouwwerken die bij deze schaduw passen").

3. De Drie Scoren (Hoe meten we het?)

In plaats van alleen te kijken of het antwoord goed is, kijken ze naar drie dingen:

  • Geldigheid (Validity): Is het antwoord wel een echte oplossing? (Is het een ei of een steen?)
    • Resultaat: De slimste AI's zijn hier vaak goed in. Ze geven geen onzin.
  • Uniekheid (Uniqueness): Bedenkt de AI verschillende dingen, of herhaalt ze maar hetzelfde? (Ligt er één ei of tien verschillende?)
    • Resultaat: Hier zakken de AI's hard in. Ze worden saai.
  • Herstel/Dekking (Recovery): Hoeveel van de totaal mogelijke oplossingen heeft de AI gevonden? (Heeft ze 1 van de 100 eieren gevonden, of 90?)
    • Resultaat: Dit is waar het misgaat. Naarmate de puzzel moeilijker wordt (meer mogelijke oplossingen), vinden de AI's steeds minder van de totale set. Ze raken de "naald in de hooiberg" kwijt.

4. Waarom gebeurt dit? (De "Populaire" Antwoorden)

De paper legt uit dat AI-modellen zijn getraind om de "meest waarschijnlijke" antwoorden te geven. Stel je voor dat je een restaurant hebt waar 99% van de mensen pasta bestelt. De kok (de AI) zal dus bijna alleen maar pasta maken, omdat dat het veiligste en populairste is.

Zelfs als er 50 andere gerechten mogelijk zijn die ook smaken, maakt de kok ze niet, omdat hij bang is om af te wijken van het populaire pad. De AI "kijkt niet verder dan haar neus reikt" naar de minder populaire, maar wel geldige oplossingen.

5. De Oplossing: "Stratified Decoding" (De Koffiezet-test)

De auteurs proberen een simpele truc om dit op te lossen. Ze zeggen tegen de AI: "Bedenk eerst 10 simpele oplossingen, dan 10 iets complexere, en dan 10 hele complexe."

Dit is alsof je de kok dwingt om: "Maak eerst 10 pasta's, dan 10 salades, en dan 10 desserts," in plaats van dat hij maar pasta blijft maken.

  • Resultaat: Dit helpt! De AI vindt ineens veel meer van de "vergeten" oplossingen. Het is een manier om de AI te dwingen om de hele hooiberg te doorzoeken in plaats van alleen de plek waar de naald het vaakst ligt.

Conclusie: Wat betekent dit voor de toekomst?

Deze paper zegt niet dat AI dom is. Ze zeggen: "AI is goed in het vinden van een goed antwoord, maar slecht in het verkennen van alle mogelijke antwoorden."

Voor de wetenschap is dit gevaarlijk. Als een AI alleen het eerste goede antwoord geeft, missen we misschien de echte doorbraak die in een van de andere 99 oplossingen verstopt zat. HypoSpace is dus een diagnose-apparaat om te zien of AI's echt kunnen "nadenken" over alle mogelijkheden, of dat ze gewoon een beetje een "gebroken record" zijn dat steeds hetzelfde liedje zingt.

Kort samengevat:

  • Huidige AI: Vindt het juiste antwoord, maar herhaalt het steeds.
  • HypoSpace: Een test die laat zien hoeveel andere goede antwoorden de AI mist.
  • De les: We moeten AI's leren om niet alleen het "populaire" antwoord te kiezen, maar om de hele wereld van mogelijke antwoorden te verkennen.