CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat kunstenaars en uitvinders de wereld veranderen door nieuwe dingen te maken. Nu hebben we computers die heel slim zijn geworden (zoals de AI-modellen die we vandaag gebruiken), maar ze hebben een probleem: ze zijn zo goed geworden in het nabootsen van wat ze al hebben gelezen op internet, dat ze moeite hebben om echt nieuwe dingen te bedenken. Ze worden een beetje saai en voorspelbaar.

Dit artikel introduceert een nieuw project genaamd CreativeBench. Het is als een grote, slimme test die probeer uit te vinden: "Kan deze computer echt creatief zijn, of doet hij alleen maar alsof?"

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Twee manieren om creatief te zijn

De onderzoekers kijken naar twee soorten creativiteit, net zoals een mens dat zou doen:

De "Mix-En-Match" Creativiteit (Combinatorial):
Stel je voor dat je een muzikant bent die een stukje jazz combineert met een stukje klassieke muziek om iets heel nieuws te maken. Of een kok die een Italiaanse pasta combineert met een Aziatische saus.
- In de test: De computer moet code schrijven die twee totaal verschillende onderwerpen (bijvoorbeeld een grafiek en muziektheorie) samenvoegt tot één nieuw, werkend programma.
De "Verkenner" Creativiteit (Exploratory):
Stel je voor dat je een spoorzoeker bent die een berg moet beklimmen, maar je mag niet de gebruikelijke paden gebruiken. Je moet een nieuw pad vinden door de rotsen, terwijl je steeds meer regels krijgt (bijvoorbeeld: "Geen steen op de grond", "Geen touwen").
- In de test: De computer krijgt een probleem, maar krijgt daarna steeds strengere regels die de "gemakkelijke" oplossingen verbieden. De computer moet dan een heel andere, creatieve manier vinden om het probleem op te lossen.

2. Hoe weten we dat het echt creatief is?

Vaak doen AI's alsof ze creatief zijn, maar in werkelijkheid "hallucineren" ze (ze verzinnen dingen die niet werken). CreativeBench lost dit op met een slimme truc: de computer moet de code laten draaien.

Als de code niet werkt, is het geen creativiteit, maar een droom.
Als de code werkt én heel anders is dan wat de computer normaal doet, dan is het echt creatief.

Ze gebruiken een formule: Creativiteit = Kwaliteit × Nieuwheid.

Als het werkt maar saai is? Geen creativiteit.
Als het heel nieuw is maar niet werkt? Geen creativiteit.
Als het werkt én heel nieuw is? Bingo!

3. Wat hebben ze ontdekt?

Toen ze de slimste computers ter wereld op deze test zetten, kwamen ze tot verrassende conclusies:

Groter is niet altijd creatiever: Je zou denken dat een grotere, slimmere computer (meer "hersenen") creatiever is. Maar dat blijkt niet helemaal waar. Grote computers worden heel goed in het vinden van de juiste, standaard oplossing (ze worden "correcter"), maar ze worden juist minder bereid om rare, nieuwe paden te verkennen. Ze worden een beetje "geconvergeerd" naar het veilige pad.
Redeneren helpt bij verkennen: Als je de computer laat "nadenken" (een stap-voor-stap redeneerproces), helpt dat enorm bij het vinden van nieuwe paden onder moeilijke regels. Maar voor het mixen van twee dingen helpt dat minder.

4. De oplossing: EvoRePE (De "Creativiteits-Injectie")

Omdat grote computers soms te veilig spelen, hebben de onderzoekers een nieuwe truc bedacht, genaamd EvoRePE.

Stel je voor dat je een computer hebt die een beetje saai is. Je kunt een "creativiteits-vector" (een soort onzichtbare stuurknop) uit de computer halen die is getraind op manieren waarop computers creatief zijn geworden in het verleden. Vervolgens kun je die knop tijdens het denken van de computer een beetje duwen.

Het resultaat: De computer wordt niet slimmer in het algemeen, maar hij wordt plotseling veel creatiever. Hij durft weer de rare paden te verkennen, zonder dat je hem opnieuw hoeft te trainen. Het is alsof je een kunstenaar een beetje "dronken" maakt van inspiratie, zodat hij weer durft te experimenteren.

Samenvatting

Dit artikel is een belangrijke stap vooruit. Het zegt: "We kunnen niet alleen kijken of computers goed rekenen, we moeten ook kijken of ze kunnen dromen."

Ze hebben een testbed gebouwd om creativiteit te meten, hebben ontdekt dat grotere computers soms te veilig worden, en hebben een nieuwe knop bedacht om ze weer creatief te maken. Dit is een grote stap richting computers die niet alleen slimme assistenten zijn, maar echte uitvinders.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De huidige vooruitgang in Large Language Models (LLMs) wordt beperkt door de verzadiging van hoogwaardige pre-training data. Onderzoek verschuift daarom naar evolutionaire systemen die continu nieuwe artefacten kunnen genereren (zoals AlphaEvolve). Echter, de ontwikkeling van deze systemen wordt gehinderd door het ontbreken van een rigoureuze, kwantitatieve evaluatie van machine creativiteit.

Bestaande benchmarks focussen voornamelijk op functionele correctheid (bijv. Pass@k) en missen de volgende aspecten:

Ze kunnen moeilijk onderscheid maken tussen echte creativiteit en hallucinaties.
Ze hebben vaak onvoldoende taakcomplexiteit om echte creatieve gedrag te eliciteren in plaats van rote memorisatie.
Er ontbreken grondige, automatiseerbare kwantitatieve metrieken voor creativiteit in evolutionaire systemen.

Methodologie: CreativeBench

De auteurs introduceren CreativeBench, een benchmark voor codegeneratie die is gebaseerd op het cognitieve creativiteitskader van Boden (2004). Dit kader onderscheidt twee soorten creativiteit, die beide in de benchmark zijn vertaald naar code-taken:

Combinatorial Creativity (CreativeBench-Combo): Het combineren van bekende concepten op onbekende manieren.
- Methode: Reverse Engineering. Het systeem genereert eerst complexe code door componenten uit verschillende domeinen te fuseren (bijv. data-verwerking + graf-algoritmen). Vervolgens wordt de probleemomschrijving "terugontworpen" uit deze geverifieerde oplossing. Dit garandeert dat elke taak een geldige oplossing heeft.
Exploratory Creativity (CreativeBench-Explore): Het navigeren door een gestructureerde conceptuele ruimte om nieuwe mogelijkheden te ontdekken.
- Methode: Self-Play. Een "Constraint Generator" voegt progressief negatieve constraints toe aan een probleem (bijv. "gebruik geen for-lussen" of "gebruik geen binaire zoekopdracht"). Een "Solver" moet een oplossing vinden die aan alle gestapelde constraints voldoet. Dit proces duwt het model naar structureel verschillende algoritmen.

Data Constructie en Filtering:

De dataset is volledig automatisch gegenereerd (geen menselijke curatie) via een pipeline van reverse engineering en self-play.
Er wordt gebruik gemaakt van een sandbox voor uitvoering en een LLM-as-a-Judge voor constraint-validatie.
Een driedelige filter (moeilijkheid, kwaliteit, diversiteit) zorgt voor hoge kwaliteit. Menselijke experts verifieerden 300 steekproeven, wat resulteerde in een validiteitspercentage van 89,1%.

Evaluatiemetriek:
De auteurs definiëren creativiteit als het product van Kwaliteit en Noviteit:
$\text{Creativiteit} = \text{Kwaliteit} \times \text{Noviteit}$

Kwaliteit: Gemeten via Pass@1 (correctheid in de sandbox).
Noviteit: Gemeten als de afstand tot een baseline-oplossing, berekend als een combinatie van:
- Embedding-distance: Gebruik van CodeXEmbed voor semantische structuur.
- N-gram-distance: Karakter-level 4-gram Jaccard-distance om oppervlakkige wijzigingen te straffen.

Key Contributions

De Eerste Machine Creativiteit Benchmark: Een benchmark gebaseerd op Boden's cognitieve theorie die zowel combinatorische als exploratieve creativiteit in code meet.
Nieuwe Inzichten in Schaalvergroting: Het paper onthult hoe modelgrootte en redeneervermogen interactie hebben met creativiteit in evolutionaire systemen.
EvoRePE (Evolutionary Representation Engineering): Een plug-and-play strategie voor inferentie-tijd sturing die evolutionaire zoekpatronen internaliseert om creativiteit te verhogen zonder extra training.

Resultaten en Analyse

De auteurs analyseerden state-of-the-art modellen (o.a. Gemini-3-Pro, GPT-5.2, Qwen2.5) en vonden drie cruciale inzichten:

Schaalvergroting begunstigt Combinatie boven Exploratie:
- Grotere modellen presteren aanzienlijk beter in combinatorische creativiteit (kennishercombinatie).
- Voor exploratieve creativiteit zijn de winsten marginaal of zelfs negatief; grotere modellen worden "te correct" en blijven hangen in hoge-waarschijnlijkheidspatronen.
Convergence-by-Scaling:
- Grotere modellen worden correcter (hoger Pass@1) maar minder divergent (lagere Noviteit). Ze convergeren naar standaardoplossingen, wat de totale creativiteitsscore beperkt ondanks de hogere nauwkeurigheid.
Redenering helpt Exploratie, niet Combinatie:
- Het inschakelen van "reasoning modes" verbetert prestaties aanzienlijk bij exploratieve taken (waar constraints een gestructureerde zoektocht vereisen), maar heeft weinig effect op combinatorische taken.

EvoRePE Effectiviteit:
De voorgestelde methode EvoRePE extrahert een "creativiteitsvector" uit evolutionaire trajecten en injecteert deze tijdens de inferentie.

Dit resulteert in consistente creativiteitswinsten, zelfs zonder evolutionaire zoekopdrachten.
De methode is orthogonaal aan bestaande evolutionaire strategieën en kan daarbovenop worden gelegd voor verdere verbetering.

Significantie

Dit werk is significant omdat het:

Een objectieve, uitvoerbare maatstaf biedt voor machine creativiteit, wat een langdurig probleem is in het veld.
Aantoont dat schaalvergroting alleen niet voldoende is voor open-ended evolutie; er zijn specifieke mechanismen nodig om divergentie te stimuleren.
EvoRePE introduceert een nieuwe richting voor "gestuurde evolutie", waarbij de interne representaties van een model worden gestuurd om creatieve zoekpaden te bevorderen, wat potentieel leidt tot systemen die beter in staat zijn tot wetenschappelijke ontdekkingen en innovatieve probleemoplossing.

De paper concludeert dat machine creativiteit niet alleen een kwestie is van meer data, maar van het begrijpen en manipuleren van de latente ruimte van modellen om zowel correctheid als originaliteit te maximaliseren.

CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

1. Twee manieren om creatief te zijn

2. Hoe weten we dat het echt creatief is?

3. Wat hebben ze ontdekt?

4. De oplossing: EvoRePE (De "Creativiteits-Injectie")

Samenvatting

Probleemstelling

Methodologie: CreativeBench

Key Contributions

Resultaten en Analyse

Significantie

Meer zoals dit

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction