CREATE: Testing LLMs for Associative Creativity

Dit paper introduceert CREATE, een nieuwe benchmark voor het evalueren van het vermogen van taalmodellen tot associatief redeneren door concepten op specifieke en diverse manieren met elkaar te verbinden, waarbij blijkt dat de meest geavanceerde modellen beter presteren maar dat het benchmark nog niet verzadigd is en 'thinking'-modellen niet altijd effectiever zijn.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

CREATE: Een Test voor de Creatieve Geest van AI

Stel je voor dat kunstenaars, wetenschappers en uitvinders niet alleen moeten weten wat er is, maar vooral hoe ze dingen met elkaar kunnen verbinden die voor de meeste mensen totaal los van elkaar lijken. Dat is associatief denken: het vermogen om een brug te slaan tussen twee concepten die ver uit elkaar lijken, maar die samen een nieuw, briljant idee vormen.

Dit artikel introduceert CREATE, een nieuwe test (een "benchmark") om te kijken of grote taalmodellen (zoals de slimme AI's die we vandaag de dag gebruiken) echt creatief zijn, of dat ze alleen maar feiten uit hun geheugen halen.

Hier is een uitleg in simpele taal, met behulp van een paar verhelderende metaforen:

1. Het Probleem: De "Google" vs. De "Duitser"

Stel je voor dat je een AI vraagt: "Hoe is Dakota Johnson verbonden met mensen uit fantasyfilms?"

  • Een simpele AI (of een zoekmachine) zou zeggen: "Ze speelde in The Materialists met Chris Evans, en Chris Evans speelde in Captain America." Dat is een logische, maar saaie verbinding.
  • Een creatieve AI zou kunnen zeggen: "Dakota Johnson is de stiefdochter van Antonio Banderas, en Antonio Banderas speelde in Shrek (een fantasyfilm)."

De tweede verbinding is verrassender, minder voor de hand liggend, maar net zo waar. CREATE is ontworpen om te testen of een AI deze tweede, creatieve sprong kan maken, of dat het vastzit in de eerste, voor de hand liggende antwoorden.

2. De Test: Een Schatzoektocht in een Bibliotheek

De auteurs hebben een enorme bibliotheek vol feiten over de wereld (een kennisgrafiek) gebruikt om vragen te maken. De AI moet in deze bibliotheek op zoek gaan naar paden tussen twee punten.

Stel je voor dat je een schatzoeker bent in een gigantisch labyrint:

  • De Start: Dakota Johnson.
  • Het Doel: Iemand uit een fantasyfilm.
  • De Opdracht: Vind niet één, maar veel verschillende routes door het labyrint.

De test eist twee dingen van de AI:

  1. Kwaliteit (Sterke verbindingen): De route moet waarheidsgetrouw zijn en een sterke, specifieke link hebben (zoals "stiefdochter" is specifieker dan "beide wonen in de VS").
  2. Diversiteit (Verschillende routes): De AI mag niet telkens dezelfde route nemen. Het moet routes vinden die qua aard verschillen (bijvoorbeeld één route via familie, één via een film, één via een sportclub).

3. Hoe wordt de AI beoordeeld?

De beoordeling is als een jury bij een talentenjacht die kijkt naar twee dingen:

  • Hoe slim is het idee? (Is de verbinding logisch en waar?)
  • Hoe origineel is het? (Heb je iets gezegd dat niemand anders al had bedacht?)

Als een AI 10 saaie, bijna identieke antwoorden geeft, scoort hij laag. Als hij 10 unieke, verrassende en waarheidsgetrouwe antwoorden geeft, scoort hij hoog.

4. Wat hebben ze ontdekt? (De Verbluffende Resultaten)

De auteurs hebben de slimste AI's van dit moment (zoals GPT-5, Claude en Gemini) aan de test onderworpen. Hier zijn de belangrijkste bevindingen:

  • De Slimste zijn het Best, maar niet Perfect: De allerbeste modellen vinden de meest creatieve en diverse antwoorden. Ze kunnen echt "denken" in verbindingen.
  • Meer Denken = Niet Altijd Beter: Je zou denken dat als je een AI meer tijd geeft om na te denken (meer "tokens" of rekenkracht), hij creatiever wordt. Maar dat is niet altijd zo. Soms blijft de AI vastzitten in dezelfde patronen, net als een mens die blijft rondlopen in een cirkel in plaats van een nieuwe weg te zoeken.
  • Creativiteit is Moeilijk: Zelfs de slimste modellen vinden het lastig om echt unieke antwoorden te geven. Ze hebben de neiging om naar de "veilige" en bekende antwoorden te grijpen. Het is alsof ze bang zijn om de veilige weg te verlaten.
  • Werkelijke Creativiteit is nog een Uitdaging: De test laat zien dat AI's goed zijn in het hergebruiken van bestaande feiten op een nieuwe manier, maar het echte "nieuwe idee bedenken" (zoals een wetenschapper die een nieuwe theorie bedenkt) is nog steeds heel moeilijk voor hen.

5. Waarom is dit belangrijk?

Dit onderzoek is als een spiegel voor de AI-wereld.

  • Het laat zien dat we AI's niet alleen moeten zien als super-snelle zoekmachines.
  • Het helpt onderzoekers te begrijpen hoe ze AI's kunnen trainen om écht creatief te worden, bijvoorbeeld om te helpen bij het bedenken van nieuwe medicijnen, het schrijven van spannende verhalen of het oplossen van complexe maatschappelijke problemen.

Kortom: CREATE is een test om te zien of een AI alleen maar feiten kan opsommen, of dat het ook echt kan "dromen" en verrassende verbindingen kan leggen tussen de sterren aan de hemel van onze kennis. De beste AI's doen het goed, maar ze zijn nog niet helemaal klaar om de menselijke creativiteit volledig te vervangen.