CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Dit paper introduceert CreativeBench, een benchmark voor het kwantitatief evalueren van machine creativiteit in codegeneratie, en presenteert EvoRePE, een strategie die de creativiteit van modellen verbetert door evolutionaire zoekpatronen te internaliseren.

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat kunstenaars en uitvinders de wereld veranderen door nieuwe dingen te maken. Nu hebben we computers die heel slim zijn geworden (zoals de AI-modellen die we vandaag gebruiken), maar ze hebben een probleem: ze zijn zo goed geworden in het nabootsen van wat ze al hebben gelezen op internet, dat ze moeite hebben om echt nieuwe dingen te bedenken. Ze worden een beetje saai en voorspelbaar.

Dit artikel introduceert een nieuw project genaamd CreativeBench. Het is als een grote, slimme test die probeer uit te vinden: "Kan deze computer echt creatief zijn, of doet hij alleen maar alsof?"

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Twee manieren om creatief te zijn

De onderzoekers kijken naar twee soorten creativiteit, net zoals een mens dat zou doen:

  • De "Mix-En-Match" Creativiteit (Combinatorial):
    Stel je voor dat je een muzikant bent die een stukje jazz combineert met een stukje klassieke muziek om iets heel nieuws te maken. Of een kok die een Italiaanse pasta combineert met een Aziatische saus.
    • In de test: De computer moet code schrijven die twee totaal verschillende onderwerpen (bijvoorbeeld een grafiek en muziektheorie) samenvoegt tot één nieuw, werkend programma.
  • De "Verkenner" Creativiteit (Exploratory):
    Stel je voor dat je een spoorzoeker bent die een berg moet beklimmen, maar je mag niet de gebruikelijke paden gebruiken. Je moet een nieuw pad vinden door de rotsen, terwijl je steeds meer regels krijgt (bijvoorbeeld: "Geen steen op de grond", "Geen touwen").
    • In de test: De computer krijgt een probleem, maar krijgt daarna steeds strengere regels die de "gemakkelijke" oplossingen verbieden. De computer moet dan een heel andere, creatieve manier vinden om het probleem op te lossen.

2. Hoe weten we dat het echt creatief is?

Vaak doen AI's alsof ze creatief zijn, maar in werkelijkheid "hallucineren" ze (ze verzinnen dingen die niet werken). CreativeBench lost dit op met een slimme truc: de computer moet de code laten draaien.

  • Als de code niet werkt, is het geen creativiteit, maar een droom.
  • Als de code werkt én heel anders is dan wat de computer normaal doet, dan is het echt creatief.

Ze gebruiken een formule: Creativiteit = Kwaliteit × Nieuwheid.

  • Als het werkt maar saai is? Geen creativiteit.
  • Als het heel nieuw is maar niet werkt? Geen creativiteit.
  • Als het werkt én heel nieuw is? Bingo!

3. Wat hebben ze ontdekt?

Toen ze de slimste computers ter wereld op deze test zetten, kwamen ze tot verrassende conclusies:

  • Groter is niet altijd creatiever: Je zou denken dat een grotere, slimmere computer (meer "hersenen") creatiever is. Maar dat blijkt niet helemaal waar. Grote computers worden heel goed in het vinden van de juiste, standaard oplossing (ze worden "correcter"), maar ze worden juist minder bereid om rare, nieuwe paden te verkennen. Ze worden een beetje "geconvergeerd" naar het veilige pad.
  • Redeneren helpt bij verkennen: Als je de computer laat "nadenken" (een stap-voor-stap redeneerproces), helpt dat enorm bij het vinden van nieuwe paden onder moeilijke regels. Maar voor het mixen van twee dingen helpt dat minder.

4. De oplossing: EvoRePE (De "Creativiteits-Injectie")

Omdat grote computers soms te veilig spelen, hebben de onderzoekers een nieuwe truc bedacht, genaamd EvoRePE.

Stel je voor dat je een computer hebt die een beetje saai is. Je kunt een "creativiteits-vector" (een soort onzichtbare stuurknop) uit de computer halen die is getraind op manieren waarop computers creatief zijn geworden in het verleden. Vervolgens kun je die knop tijdens het denken van de computer een beetje duwen.

  • Het resultaat: De computer wordt niet slimmer in het algemeen, maar hij wordt plotseling veel creatiever. Hij durft weer de rare paden te verkennen, zonder dat je hem opnieuw hoeft te trainen. Het is alsof je een kunstenaar een beetje "dronken" maakt van inspiratie, zodat hij weer durft te experimenteren.

Samenvatting

Dit artikel is een belangrijke stap vooruit. Het zegt: "We kunnen niet alleen kijken of computers goed rekenen, we moeten ook kijken of ze kunnen dromen."

Ze hebben een testbed gebouwd om creativiteit te meten, hebben ontdekt dat grotere computers soms te veilig worden, en hebben een nieuwe knop bedacht om ze weer creatief te maken. Dit is een grote stap richting computers die niet alleen slimme assistenten zijn, maar echte uitvinders.