CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Défi : Comment mesurer la créativité d'un robot ?

Imaginez que vous avez un chef cuisinier robot très doué. Il peut copier des milliers de recettes existantes à la perfection. Mais si vous lui demandez d'inventer un plat totalement nouveau, qu'arrive-t-il ?

Est-ce qu'il invente vraiment quelque chose de génial ?
Ou est-ce qu'il mélange n'importe quoi et vous sert un plat immangeable (ce qu'on appelle une "hallucination" dans le monde de l'IA) ?

C'est exactement le problème que les chercheurs de cet article tentent de résoudre. Jusqu'à présent, on mesurait l'intelligence des robots (les modèles d'IA) en voyant s'ils pouvaient résoudre des exercices de mathématiques ou de code classiques. Mais pour la créativité, il n'y avait pas de règle du jeu claire.

🛠️ La Solution : "CreativeBench", le terrain de jeu créatif

Les auteurs ont créé un nouveau test appelé CreativeBench. Pour le comprendre, imaginons deux types de créativité, comme deux façons de jouer :

1. La Créativité "Mélangeur" (Combinatorial)

C'est comme si vous preniez un jeu de Lego de l'espace et un jeu de Lego de la cuisine, et que vous deviez construire un seul objet qui fonctionne avec les deux.

L'analogie : Imaginez un musicien qui doit écrire une chanson où la structure d'un pont (géométrie) dicte les accords de musique. C'est difficile, mais c'est un mélange de choses que l'on connaît déjà.
Le but du test : Vérifier si l'IA peut fusionner deux domaines différents (comme les graphes informatiques et la théorie musicale) pour créer quelque chose de nouveau et qui fonctionne.

2. La Créativité "Explorateur" (Exploratory)

C'est comme un jeu de "Jeux Interdits".

L'analogie : On demande à l'IA de résoudre un problème (par exemple, faire une liste de températures), mais on lui interdit d'utiliser les outils habituels.
- Interdit : Utiliser des boucles (for/while).
- Interdit : Utiliser la formule mathématique habituelle.
- Interdit : Utiliser les jolis outils de mise en forme du texte.
Le but du test : L'IA doit être un "hacker" créatif. Elle doit trouver une solution bizarre, originale, mais qui fonctionne quand même, en contournant les règles. C'est comme si on vous interdisait d'utiliser vos mains pour écrire, et vous deviez trouver comment écrire avec vos pieds ou votre nez, tout en restant lisible.

⚖️ La Règle d'Or : Qualité x Nouveauté

Le plus grand défi était de ne pas confondre "créatif" et "n'importe quoi".

Si le robot invente un plat bizarre mais qu'il est toxique, ce n'est pas de la créativité, c'est une erreur.
Si le robot fait un plat délicieux mais qu'il existe déjà, ce n'est pas créatif.

Les chercheurs ont inventé une formule magique :

Score de Créativité = Qualité (ça marche ?) x Nouveauté (est-ce différent ?)

C'est comme un examen où l'on note à la fois la justesse de la réponse et l'originalité de la méthode. Si l'un des deux est nul, le score final est nul.

🔍 Ce qu'ils ont découvert (Les surprises)

En testant les plus grands robots du monde (les modèles d'IA les plus puissants), ils ont trouvé trois choses surprenantes :

Plus c'est gros, mieux c'est pour le mélange, mais moins bien pour l'exploration.
Les très gros modèles sont excellents pour mélanger des idées connues (comme un chef qui assemble des recettes classiques). Mais pour inventer quelque chose de totalement nouveau en contournant les règles, ils deviennent parfois trop "sûrs d'eux" et perdent leur audace. Ils préfèrent la sécurité à l'innovation.
Le paradoxe de la taille.
Plus on agrandit le modèle, plus il devient précis et correct, mais il devient aussi plus "ennuyeux" et standardisé. Il a tendance à converger vers la solution la plus probable, perdant sa capacité à faire des sauts dans l'inconnu.
Le "raisonnement" aide l'explorateur, pas le mélangeur.
Quand on force le modèle à "réfléchir" étape par étape (comme un humain qui prend le temps de penser), cela l'aide beaucoup à résoudre les énigmes avec des règles interdites (Exploration). Par contre, cela n'aide pas vraiment à fusionner deux domaines différents.

🚀 L'astuce magique : EvoRePE

Enfin, les chercheurs ont proposé une solution pour rendre les robots plus créatifs sans avoir à les réapprendre de zéro. Ils appellent cela EvoRePE.

L'analogie : Imaginez que vous avez un musicien qui joue toujours la même mélodie. Au lieu de lui apprendre de nouvelles notes, vous lui mettez un petit écouteur spécial qui lui murmure une "direction créative".
Comment ça marche ? Ils ont observé comment les robots évoluaient quand on les forçait à chercher des solutions originales. Ils ont extrait cette "direction" sous forme d'un vecteur (une sorte de boussole mathématique) et l'ont injectée dans le cerveau du robot au moment où il travaille.
Résultat : Le robot devient instantanément plus créatif, comme s'il avait intégré l'expérience d'une longue recherche, le tout en quelques secondes.

🏁 En résumé

Cette recherche nous dit que pour avoir de vraies machines créatives, il ne suffit pas de les rendre plus grosses ou plus intelligentes. Il faut :

Les tester sur des défis qui mélangent des idées et qui imposent des contraintes difficiles.
Mesurer à la fois si leur idée est bonne et si elle est originale.
Utiliser des "boussoles" internes pour les guider vers des solutions plus audacieuses.

C'est un pas de géant pour comprendre comment les machines peuvent passer de simples copieurs à de véritables inventeurs.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'avancement des modèles de langage (LLM) a atteint un point de saturation dû à l'épuisement des données d'entraînement de haute qualité sur Internet. Pour continuer à progresser, la recherche se tourne vers des systèmes évolutifs capables de générer continuellement des artefacts nouveaux et apprenables (comme AlphaEvolve).

Cependant, le développement de ces systèmes est freiné par l'absence d'évaluations rigoureuses et quantitatives de la créativité machine. Les benchmarks existants souffrent de trois défauts majeurs :

Confusion entre créativité et hallucination : Difficulté à distinguer objectivement une solution créative d'une erreur factice.
Complexité insuffisante : Les tâches actuelles favorisent la mémorisation (rote memorization) plutôt que le véritable raisonnement créatif.
Manque de métriques ancrées : Absence de mesures quantitatives fiables pour les systèmes évolutifs.

L'objectif de cet article est de combler ces lacunes en introduisant un cadre d'évaluation basé sur le modèle cognitif de Margaret Boden, qui distingue la créativité combinatoire (combinaison de concepts familiers de manière nouvelle) et la créativité exploratoire (navigation dans un espace conceptuel structuré pour découvrir de nouvelles possibilités).

2. Méthodologie : CreativeBench

Les auteurs proposent CreativeBench, un benchmark pour la génération de code, conçu pour évaluer objectivement ces deux types de créativité.

A. Construction des Données (Pipeline Automatisé)

Le benchmark est construit via un pipeline entièrement automatisé utilisant le "reverse engineering" et le "self-play" (jeu contre soi-même), garantissant une complexité élevée et évitant les fuites de données :

CreativeBench-Combo (Créativité Combinatoire) : Utilise une stratégie de reverse engineering. Le modèle fusionne des composants de code provenant de domaines différents (ex: algorithmes de graphes + traitement de données) pour créer une solution unifiée. À partir de cette solution validée, le système génère automatiquement les énoncés de problèmes et les tests.
CreativeBench-Explore (Créativité Exploratoire) : Utilise une méthode de self-play asymétrique. Un générateur de contraintes impose progressivement des contraintes négatives (ex: "interdire l'utilisation de la recherche binaire") sur un problème de base. Un solveur doit alors trouver une solution alternative respectant ces contraintes. La difficulté augmente tant que le solveur parvient à trouver une solution valide.

B. Métriques d'Évaluation Unifiées

Pour distinguer la créativité de l'erreur, les auteurs définissent un Score de Créativité comme le produit de deux facteurs :
$\text{Créativité} = \text{Qualité} \times \text{Nouveauté}$

Qualité (Quality) : Mesurée par l'exécution correcte du code dans un bac à sable (sandbox) et validée par un juge LLM. C'est essentiellement le taux de réussite Pass@1.
Nouveauté (Novelty) : Mesurée par la distance logique entre la solution générée et une solution de base (baseline).
- Méthode : Combinaison de la distance d'embedding (via CodeXEmbed) pour la sémantique et de la distance n-gramme (caractères) pour éviter les copier-coller légers.
- Formule : $N(u, v) = (1 - \cos(e_u, e_v)) + (1 - \text{Jaccard}(G_4(u), G_4(v)))$ .

Ce score multiplicatif pénalise les solutions correctes mais banales, ainsi que les solutions originales mais incorrectes.

C. Validation Humaine

Une vérification manuelle par des experts a confirmé la fiabilité du benchmark :

Taux de validité des données : 89,1 %.
Accord fort entre le classement automatisé et l'expertise humaine (Coefficient de corrélation de Spearman $\rho = 0.78$ ).

3. Contributions Clés

Création de CreativeBench : Le premier benchmark de créativité machine basé sur le cadre cognitif de Boden, couvrant 14 domaines de programmation avec 1 859 problèmes.
Analyse des Modèles de Base : Identification de comportements distincts des modèles d'état de l'art face à la créativité.
EvoRePE (Evolutionary Representation Engineering) : Une méthode d'inférence "plug-and-play" qui améliore la créativité sans réentraînement.

4. Résultats Expérimentaux et Insights

L'évaluation de modèles de pointe (Gemini-3-Pro, GPT-5.2, Qwen2.5, etc.) révèle trois tendances majeures :

A. Le "Scaling" Favorise la Combinaison, pas l'Exploration

L'augmentation de la taille du modèle améliore significativement la créativité combinatoire (meilleure capacité à synthétiser des connaissances de domaines différents).
En revanche, elle offre des gains marginaux, voire négatifs, pour la créativité exploratoire. Les grands modèles tendent à converger vers des solutions de haute probabilité (leurs priors d'entraînement), rendant plus difficile la découverte de solutions "0 à 1" hors des sentiers battus.

B. Convergence par le Scaling (Convergence-by-Scaling)

Les modèles plus grands sont plus corrects (Pass@1 plus élevé) mais moins divergents (Nouveauté plus faible).
Ils se concentrent sur les modes de haute probabilité, produisant des solutions standardisées plutôt que créatives. La créativité brute (divergence) est souvent plus élevée chez les modèles plus petits, au détriment de la justesse.

C. L'Impact du Raisonnement

Le mode de raisonnement (Chain-of-Thought) aide considérablement la créativité exploratoire (résolution de problèmes sous contraintes strictes).
Il n'apporte presque aucun bénéfice à la créativité combinatoire, qui repose davantage sur la récupération et la fusion de connaissances que sur une chaîne de pensée longue.

5. Solution d'Amélioration : EvoRePE

Pour pallier les limites des algorithmes évolutionnaires (coûteux en calcul), les auteurs proposent EvoRePE.

Principe : Extraire un "vecteur de créativité" latent en comparant les états d'activation d'un modèle standard et d'un modèle ayant subi une optimisation évolutionnaire.
Application : Ce vecteur est injecté dans le flux résiduel du modèle lors de l'inférence ( $\tilde{h} = h + \alpha v$ ).
Résultat : EvoRePE améliore systématiquement le score de créativité (jusqu'à +0.020 sur le score global) sans nécessiter de réentraînement et fonctionne même avec un prompting standard (sans boucle évolutionnaire). Cela suggère que les patterns de recherche évolutionnaire peuvent être internalisés comme un guidage latent.

6. Signification et Impact

Ce travail marque une avancée significative dans l'évaluation de l'intelligence artificielle générative :

Dépassement de la simple justesse : Il déplace le paradigme d'évaluation de la simple correction fonctionnelle (Pass@k) vers une évaluation multidimensionnelle incluant la nouveauté et la diversité.
Compréhension des limites du Scaling : Il met en lumière que l'augmentation de la taille des modèles ne résout pas automatiquement le problème de la créativité, et peut même étouffer la divergence nécessaire à l'innovation exploratoire.
Nouvelle voie pour l'évolution : La méthode EvoRePE ouvre la voie à une "évolution guidée" où les modèles apprennent à naviguer dans leur propre espace latent pour générer des solutions plus créatives, combinant ainsi les avantages de l'optimisation évolutionnaire avec l'efficacité de l'inférence directe.

En conclusion, CreativeBench fournit un cadre rigoureux pour mesurer et stimuler la créativité des machines, essentiel pour le développement de systèmes capables d'une évolution ouverte et continue.