CREATE: Testing LLMs for Associative Creativity

Each language version is independently generated for its own context, not a direct translation.

CREATE: Een Test voor de Creatieve Geest van AI

Stel je voor dat kunstenaars, wetenschappers en uitvinders niet alleen moeten weten wat er is, maar vooral hoe ze dingen met elkaar kunnen verbinden die voor de meeste mensen totaal los van elkaar lijken. Dat is associatief denken: het vermogen om een brug te slaan tussen twee concepten die ver uit elkaar lijken, maar die samen een nieuw, briljant idee vormen.

Dit artikel introduceert CREATE, een nieuwe test (een "benchmark") om te kijken of grote taalmodellen (zoals de slimme AI's die we vandaag de dag gebruiken) echt creatief zijn, of dat ze alleen maar feiten uit hun geheugen halen.

Hier is een uitleg in simpele taal, met behulp van een paar verhelderende metaforen:

1. Het Probleem: De "Google" vs. De "Duitser"

Stel je voor dat je een AI vraagt: "Hoe is Dakota Johnson verbonden met mensen uit fantasyfilms?"

Een simpele AI (of een zoekmachine) zou zeggen: "Ze speelde in The Materialists met Chris Evans, en Chris Evans speelde in Captain America." Dat is een logische, maar saaie verbinding.
Een creatieve AI zou kunnen zeggen: "Dakota Johnson is de stiefdochter van Antonio Banderas, en Antonio Banderas speelde in Shrek (een fantasyfilm)."

De tweede verbinding is verrassender, minder voor de hand liggend, maar net zo waar. CREATE is ontworpen om te testen of een AI deze tweede, creatieve sprong kan maken, of dat het vastzit in de eerste, voor de hand liggende antwoorden.

2. De Test: Een Schatzoektocht in een Bibliotheek

De auteurs hebben een enorme bibliotheek vol feiten over de wereld (een kennisgrafiek) gebruikt om vragen te maken. De AI moet in deze bibliotheek op zoek gaan naar paden tussen twee punten.

Stel je voor dat je een schatzoeker bent in een gigantisch labyrint:

De Start: Dakota Johnson.
Het Doel: Iemand uit een fantasyfilm.
De Opdracht: Vind niet één, maar veel verschillende routes door het labyrint.

De test eist twee dingen van de AI:

Kwaliteit (Sterke verbindingen): De route moet waarheidsgetrouw zijn en een sterke, specifieke link hebben (zoals "stiefdochter" is specifieker dan "beide wonen in de VS").
Diversiteit (Verschillende routes): De AI mag niet telkens dezelfde route nemen. Het moet routes vinden die qua aard verschillen (bijvoorbeeld één route via familie, één via een film, één via een sportclub).

3. Hoe wordt de AI beoordeeld?

De beoordeling is als een jury bij een talentenjacht die kijkt naar twee dingen:

Hoe slim is het idee? (Is de verbinding logisch en waar?)
Hoe origineel is het? (Heb je iets gezegd dat niemand anders al had bedacht?)

Als een AI 10 saaie, bijna identieke antwoorden geeft, scoort hij laag. Als hij 10 unieke, verrassende en waarheidsgetrouwe antwoorden geeft, scoort hij hoog.

4. Wat hebben ze ontdekt? (De Verbluffende Resultaten)

De auteurs hebben de slimste AI's van dit moment (zoals GPT-5, Claude en Gemini) aan de test onderworpen. Hier zijn de belangrijkste bevindingen:

De Slimste zijn het Best, maar niet Perfect: De allerbeste modellen vinden de meest creatieve en diverse antwoorden. Ze kunnen echt "denken" in verbindingen.
Meer Denken = Niet Altijd Beter: Je zou denken dat als je een AI meer tijd geeft om na te denken (meer "tokens" of rekenkracht), hij creatiever wordt. Maar dat is niet altijd zo. Soms blijft de AI vastzitten in dezelfde patronen, net als een mens die blijft rondlopen in een cirkel in plaats van een nieuwe weg te zoeken.
Creativiteit is Moeilijk: Zelfs de slimste modellen vinden het lastig om echt unieke antwoorden te geven. Ze hebben de neiging om naar de "veilige" en bekende antwoorden te grijpen. Het is alsof ze bang zijn om de veilige weg te verlaten.
Werkelijke Creativiteit is nog een Uitdaging: De test laat zien dat AI's goed zijn in het hergebruiken van bestaande feiten op een nieuwe manier, maar het echte "nieuwe idee bedenken" (zoals een wetenschapper die een nieuwe theorie bedenkt) is nog steeds heel moeilijk voor hen.

5. Waarom is dit belangrijk?

Dit onderzoek is als een spiegel voor de AI-wereld.

Het laat zien dat we AI's niet alleen moeten zien als super-snelle zoekmachines.
Het helpt onderzoekers te begrijpen hoe ze AI's kunnen trainen om écht creatief te worden, bijvoorbeeld om te helpen bij het bedenken van nieuwe medicijnen, het schrijven van spannende verhalen of het oplossen van complexe maatschappelijke problemen.

Kortom: CREATE is een test om te zien of een AI alleen maar feiten kan opsommen, of dat het ook echt kan "dromen" en verrassende verbindingen kan leggen tussen de sterren aan de hemel van onze kennis. De beste AI's doen het goed, maar ze zijn nog niet helemaal klaar om de menselijke creativiteit volledig te vervangen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "CREATE: Testing LLMs for Associative Creativity", vertaald en samengevat in het Nederlands.

Titel: CREATE: Testen van LLM's op Associatieve Creativiteit

Auteurs: Manya Wadhwa et al. (NYU, UT Austin)
Doel: Het introduceren van een benchmark om het vermogen van Large Language Models (LLM's) te evalueren om nieuwe, zinvolle verbindingen te leggen tussen concepten (associatieve creativiteit).

1. Het Probleem

Creativiteit is een fundamentele cognitieve vaardigheid, essentieel voor wetenschappelijke ontdekkingen, schrijven en probleemoplossing. Hoewel er veel onderzoek is naar het ontwikkelen van AI-agenten voor creatieve taken (zoals het genereren van hypotheses), ontbreekt het aan robuuste, objectieve benchmarks om te meten of modellen daadwerkelijk "creatief" zijn.

Bestaande beperkingen: Real-world queries zijn vaak subjectief en moeilijk te evalueren. Symbolische benchmarks (abstracte taken) reflecteren niet de complexe, open-ended manier waarop LLM's in de praktijk worden gebruikt.
De uitdaging: Hoe meet je of een model niet alleen feitelijke kennis kan ophalen, maar ook nieuwe, niet-voor de hand liggende verbindingen kan maken tussen bestaande concepten (combinatorische creativiteit)?

2. Methodologie: De CREATE Benchmark

De auteurs introduceren CREATE (Creativity Reasoning via Associative Tasks & Evaluation), een benchmark gebaseerd op kennisgrafieken (Wikidata).

Taakdefinitie

Modellen krijgen een vraag die twee real-world entiteiten moet verbinden via een reeks feitelijke relaties (paden).

Voorbeeld: "Hoe is Dakota Johnson verbonden met mensen die hebben gespeeld in fantasy/sci-fi films?"
Verwachte output: Een set van paden (reeksen van triples: entiteit -> relatie -> entiteit).
Criteria voor succes:
1. Specificiteit (Kwaliteit): De verbindingen moeten sterk en specifiek zijn (bijv. "stiefdochter" is specifieker dan "burger van hetzelfde land").
2. Diversiteit: De set van paden moet divers zijn; modellen mogen niet telkens dezelfde standaardroute kiezen.
3. Feitelijke juistheid: Alle relaties moeten waarheidsgetrouw zijn.

Evaluatiemetrics

De auteurs gebruiken een geavanceerde metriek voor "Creatieve Nuttigheid" ( $s(U)$ ), gebaseerd op submodulaire functies:

Kwaliteit ( $f$ ): Gebaseerd op de specificiteit van de relaties (hoe kleiner de klasse van entiteiten die aan een relatie voldoen, hoe specifieker en waardevoller).
Afstand ( $d$ ): Gemeten via cosine-afstand tussen de tekstuele representaties van de paden om duplicaten of te gelijke paden te straffen.
Creatieve Nuttigheid: Combineert kwaliteit en diversiteit. Het berekent de marginale meerwaarde van elk nieuw pad in een gesorteerde lijst, waarbij een "geduld"-parameter ( $\gamma$ ) bepaalt hoe veel waarde wordt toegekend aan het vinden van extra, unieke paden.
Distinctiviteit ( $\nu$ ): Meet hoe uniek een pad is ten opzichte van een grote populatie van antwoorden van andere modellen.

Dataset Constructie

Gebaseerd op Wikidata.
Er zijn 12 verschillende domeinen geselecteerd (bijv. acteurs, geneesmiddelen, politieke posities).
De dataset bevat 931 natuurlijke taalvragen.
Het generatieproces zorgt ervoor dat er minstens één geldig, sterk pad bestaat, maar dat er ruimte is voor meerdere creatieve, minder voor de hand liggende routes.

3. Belangrijkste Resultaten

De auteurs evalueerden een breed scala aan modellen, waaronder "niet-denkende" (standard) en "denkende" (reasoning/chain-of-thought) modellen (o.a. GPT-4.1, GPT-5, Claude, Qwen, Gemini).

Prestatie van Frontier-modellen: De krachtigste modellen (zoals GPT-5 en Gemini-3-pro) behalen de hoogste scores op creatieve nuttigheid. Ze genereren zowel hoge kwaliteit als diverse paden.
Denkmodellen zijn niet altijd beter: Verassend genoeg leidt het gebruik van "thinking" modellen (met hoge token-budgetten voor redenering) niet automatisch tot betere resultaten. Soms presteren ze slechter dan hun niet-denkende tegenhangers, wat suggereert dat meer rekenkracht niet altijd leidt tot betere creatieve zoekstrategieën.
Prompting-strategieën:
- Simpele prompts zoals "Wees creatief" hebben weinig tot geen effect.
- Iteratieve prompting (vragen om een ander antwoord na een eerste poging) en Resampling (meerdere onafhankelijke generaties) leiden tot de grootste verbeteringen in diversiteit en nuttigheid.
- Verbalized Sampling (het vragen om een kansverdeling) bleek vaak contraproductief, omdat het het aantal geldige paden verlaagde.
Trade-off tussen Kwaliteit en Feitelijke Juistheid: Er is een duidelijke afweging. Modellen die meer creatieve, ongebruikelijke paden genereren, hebben soms een lagere feitelijke nauwkeurigheid. GPT-5 toont een betere balans tussen creativiteit en feitelijke juistheid dan andere modellen.
Zoekruimte: De zoekruimte is enorm. Zelfs de beste modellen vinden slechts een fractie van de mogelijke sterke, unieke verbindingen. Benchmark-saturatie is moeilijk te bereiken.

4. Belangrijke Bijdragen

CREATE Benchmark: Een nieuw, objectief meetinstrument voor associatieve creativiteit dat de kloof overbrugt tussen abstracte symbolische taken en complexe, subjectieve real-world taken.
Geformaliseerde Metriek: Een wiskundig onderbouwde definitie van creatieve nuttigheid die zowel kwaliteit (specificiteit) als diversiteit (novelty) integreert, specifiek voor paden in kennisgrafieken.
Empirische Inzichten:
- Meer "denktijd" (token-budget) is geen zilveren bullet voor creativiteit.
- Creativiteit vereist specifieke zoekstrategieën die huidige LLM's nog niet optimaal beheersen.
- Prompting-technieken zoals iteratie zijn effectiever dan simpele instructies om "creatief" te zijn.

5. Betekenis en Impact

Dit werk is cruciaal voor de ontwikkeling van AI-systemen die menselijke creativiteit kunnen ondersteunen, bijvoorbeeld in wetenschappelijk onderzoek (hypothese-generatie) of creatieve industrieën.

Toekomstige richting: Het paper toont aan dat we nieuwe methoden nodig hebben om de "zoekruimte" van concepten beter te navigeren, in plaats van alleen te vertrouwen op grotere modellen of meer tokens.
Verantwoordelijkheid: De auteurs benadrukken dat dit een abstracte taak is om te voorkomen dat modellen direct worden ingezet voor het vervangen van menselijke creativiteit in specifieke domeinen, maar wel als een stap in de richting van betere hulpmiddelen voor creatieve professionals.

Conclusie: CREATE biedt een "zandbak" om de associatieve creativiteit van AI te testen. Hoewel frontier-modellen veelbelovend zijn, blijven er significante uitdagingen in het genereren van unieke, hoge-kwaliteit verbindingen die echt creatief zijn, wat aangeeft dat er nog veel werk te doen is om AI's echt creatieve partners te maken.