CREATE: Testing LLMs for Associative Creativity

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Grand Jeu des Connexions : Comment tester si une IA est vraiment créative ?

Imaginez que vous êtes dans une immense bibliothèque où chaque livre, chaque personne et chaque objet est un point sur une carte. La créativité, c'est la capacité à trouver un chemin secret entre deux points qui semblent n'avoir rien à voir l'un avec l'autre.

Par exemple : Comment relier Dakota Johnson (une actrice) à un film de science-fiction ?

L'approche classique (l'IA "bête") : Elle dit : "Elle a joué dans un film de science-fiction." (C'est vrai, mais c'est ennuyeux et tout le monde le sait).
L'approche créative (l'IA "géniale") : Elle dit : "Dakota Johnson est la belle-fille d'Antonio Banderas. Antonio Banderas a joué dans Shrek. Shrek est un film de fantasy." 🐉👸

C'est exactement ce que les auteurs de ce papier, CREATE, veulent tester. Ils ont créé un nouveau jeu pour voir si les intelligences artificielles (les IA) sont capables de faire ces liens "tordus" mais intelligents, ou si elles se contentent de répéter ce qu'elles ont déjà lu.

🕵️‍♂️ Le Jeu : "Trouve le Chemin Caché"

Pour tester cela, les chercheurs ont créé un terrain de jeu appelé CREATE. Voici comment ça marche :

La Question : On donne à l'IA deux entités du monde réel (ex: un musicien et un scientifique).
La Mission : L'IA doit inventer plusieurs chemins pour les relier.
Les Règles du Jeu :
- La Précision (La "Qualité") : Le chemin ne doit pas être trop banal. Dire "ils sont tous deux humains" est trop facile. Dire "ils ont tous deux fréquenté la même université obscure" est mieux.
- La Diversité (La "Variété") : L'IA ne doit pas donner 10 fois la même réponse avec des mots différents. Elle doit explorer des directions différentes (famille, travail, voyages, hobbies).

C'est comme si on demandait à un détective de trouver 5 façons différentes de relier deux suspects, et que le meilleur détective est celui qui trouve le lien le plus surprenant mais vrai.

🏆 Comment on note l'IA ?

Les chercheurs ne regardent pas juste si la réponse est "vraie". Ils utilisent une formule mathématique (un peu comme un score de golf) qui combine deux choses :

La force du lien : Est-ce que c'est un détail intéressant ou une évidence ?
La différence : Est-ce que cette réponse est différente de celles données par les autres IA ?

Si une IA donne 50 réponses toutes identiques, son score sera bas. Si elle donne 5 réponses très différentes et très intelligentes, son score sera élevé.

🤖 Ce qu'ils ont découvert (Les Résultats)

Ils ont testé les IA les plus puissantes du moment (comme GPT-5, Claude, Gemini, etc.) et voici ce qu'ils ont vu :

Les IA sont bonnes, mais pas parfaites : Les modèles les plus avancés arrivent à trouver des liens créatifs, bien mieux que les modèles plus petits.
Le piège de la "répétition" : Même les IA les plus intelligentes ont tendance à tomber dans les mêmes chemins. Elles trouvent souvent les mêmes liens "évidents" et ont du mal à sortir des sentiers battus pour trouver des pépites vraiment originales.
Plus de réflexion ne veut pas dire plus de créativité : C'est une surprise ! Les chercheurs ont demandé aux IA de "réfléchir plus longtemps" (en leur donnant plus de temps de calcul). Résultat ? Ça ne les a pas rendues plus créatives. Elles ont juste répété les mêmes idées avec plus de détails. C'est comme si un étudiant passait 2 heures à relire son devoir sans jamais trouver une nouvelle idée.
L'astuce des "prompts" (les instructions) : Demander à l'IA "Sois créative !" aide un tout petit peu, mais pas autant qu'on l'espérait.

💡 La Conclusion en une phrase

Ce papier nous dit que nos IA actuelles sont d'excellents encyclopédistes (elles savent tout), mais qu'elles sont encore des créateurs moyens (elles ont du mal à inventer des liens vraiment nouveaux et surprenants).

Le défi pour l'avenir n'est pas de faire des IA plus grosses, mais de trouver un moyen de les aider à explorer l'immense bibliothèque de la connaissance sans se perdre dans les allées les plus fréquentées. C'est un peu comme apprendre à un robot à ne pas suivre la foule, mais à trouver son propre chemin dans la forêt. 🌲🤖✨

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La créativité, en particulier la créativité associative (la capacité à établir des liens nouveaux et significatifs entre des concepts), est un pilier fondamental de la découverte scientifique, de l'écriture et de la résolution de problèmes complexes. Bien que les modèles de langage (LLM) excellent dans de nombreuses tâches, leur capacité réelle à générer des idées créatives et non triviales reste difficile à évaluer.

Les défis principaux identifiés par les auteurs sont :

Subjectivité : Les tâches créatives réelles (comme la génération d'hypothèses) sont difficiles à évaluer objectivement.
Limites des benchmarks existants : Les tâches symboliques abstraites ne reflètent pas l'usage réel des LLM, tandis que les tâches de "brainstorming" ouvertes manquent souvent de réponses objectives pour le classement.
Homogénéité : Les LLM ont tendance à produire des réponses homogènes et à éviter les connexions "longue traîne" (obscures mais pertinentes).

L'objectif est de créer un benchmark capable de mesurer la capacité des LLM à naviguer dans un vaste espace de recherche conceptuel pour trouver des chemins de connexion forts (spécifiques) et diversifiés, tout en restant vérifiable.

2. Méthodologie : Le Benchmark CREATE

Les auteurs proposent CREATE (Creative Associative Reasoning Evaluation Task), un benchmark basé sur des graphes de connaissances (Wikidata) pour évaluer la créativité associative.

A. Formalisation de la tâche

La tâche consiste à générer un ensemble de chemins ( $U$ ) reliant deux entités réelles (ou une entité à une classe d'entités) via des relations factuelles.

Entrée : Une question ouverte (ex: "Comment connecter Dakota Johnson à des acteurs de films de science-fiction ?").
Sortie : Un ensemble de chemins sous forme de séquences de triplets (Entité, Relation, Entité).
Contraintes : Les chemins doivent être structurellement valides et factuellement corrects.

B. Métriques d'évaluation

Pour quantifier la créativité, l'article définit deux dimensions principales combinées dans une utilité créative ( $s(U)$ ) et une mesure de distinction ( $\nu$ ).

Qualité (Spécificité) :
- La qualité d'un chemin est déterminée par la spécificité de sa relation la plus faible.
- Une relation est "spécifique" si elle connecte un petit nombre d'entités (ex: "est le beau-père de" est plus spécifique que "est citoyen de").
- La spécificité est estimée en calculant la taille des classes induites par le prédicat (combien d'entités peuvent remplir ce rôle).
Diversité (Distance) :
- La distance entre deux chemins est calculée via la distance cosinus de leurs représentations textuelles (embeddings).
- Une transformation non linéaire est appliquée pour pénaliser les variations mineures (paraphrases) et récompenser les changements structurels ou sémantiques majeurs.
Utilité Créative ( $s(U)$ ) :
- Inspirée de NoveltyBench, cette métrique agrège la qualité et la diversité.
- Elle utilise un facteur de "patience" ( $\gamma$ ) pour pondérer l'ajout de nouveaux chemins : plus un chemin est de haute qualité et loin des chemins déjà sélectionnés, plus il contribue à la score global.
- Formule simplifiée : Somme pondérée des qualités marginales des chemins triés par ordre de contribution (qualité $\times$ distance aux précédents).
Distinction ( $\nu$ ) :
- Mesure à quel point un chemin généré s'éloigne de la distribution globale des réponses (modèles et humains). Un chemin est "distinct" s'il est rare par rapport à l'ensemble des réponses possibles.

C. Construction du Dataset

Source : Wikidata.
Processus : Génération automatique de requêtes en sélectionnant des paires (relation, catégorie) cohérentes, en formant des paires d'entités, puis en étendant un nœud par une relation supplémentaire pour créer un chemin source.
Taille : 931 requêtes couvrant divers domaines (cinéma, politique, génétique, chimie).
Validation : Utilisation de LLM-as-a-judge (gpt-oss-120b) pour vérifier la facticité et la spécificité, avec une validation humaine montrant une corrélation de 0,67-0,70.

3. Résultats Expérimentaux

Les auteurs ont évalué une gamme de modèles, incluant des modèles "réfléchissants" (Thinking models) et non réfléchissants, de différentes tailles et architectures (GPT-4.1, GPT-5, Claude, Qwen, OLMo, Gemini).

A. Performance des Modèles Frontières

Les modèles les plus avancés (GPT-5, Gemini-3-Pro) obtiennent les scores d'utilité créative les plus élevés.
Compromis Qualité/Facticité : Il existe un compromis clair. Gemini-3-Pro génère une plus grande diversité de chemins (plus d'utilité brute), mais GPT-5 maintient un taux de facticité plus élevé, ce qui le rend supérieur lorsque la véracité est strictement filtrée.
Limites des modèles "Thinking" : L'augmentation du budget de tokens de raisonnement (ex: 16k vs 32k) n'améliore pas systématiquement les scores. Les modèles "réfléchissants" n'explorent pas nécessairement un espace conceptuel plus large ni ne trouvent des chemins plus distincts que les modèles standard.

B. Impact des Techniques de Prompting

Invitation à la créativité ("Be creative") : A un effet négligeable sur la qualité et la diversité.
Échantillonnage verbalisé : Réduit considérablement le nombre de chemins valides générés.
Itération et Resampling : Ces méthodes sont les plus efficaces. Demander explicitement au modèle de générer des réponses différentes de celles déjà produites (itération) ou de resampler indépendamment augmente significativement l'utilité créative et la diversité.

C. Analyse des Traces de Raisonnement

L'analyse des traces de pensée (Chain-of-Thought) révèle que les modèles utilisent souvent des stratégies de recherche en arrière (backward-chaining) ou des connaissances de domaine, mais souffrent fréquemment de répétitions et d'une exploration inefficace de l'espace des solutions, gaspillant ainsi les tokens de calcul sans trouver de nouvelles connexions.

4. Contributions Clés

Benchmark CREATE : Un nouveau standard pour évaluer la créativité associative des LLM, combinant des connaissances du monde réel, une vérifiabilité objective et une complexité adaptée.
Métrique Unifiée : Une formulation mathématique rigoureuse de l'utilité créative intégrant spécificité, diversité et patience utilisateur, adaptée aux tâches de génération de chemins.
Évaluation Empirique : Une analyse approfondie montrant que les modèles actuels, même les plus puissants, peinent à générer des solutions véritablement distinctes et que l'augmentation du budget de calcul ne suffit pas à résoudre ce problème.
Insights sur le Prompting : La démonstration que les stratégies d'itération et de resampling sont plus efficaces que les simples incitations sémantiques à la créativité.

5. Signification et Impact

Avancement de la recherche sur l'IA créative : Ce travail déplace l'évaluation de la créativité des tâches purement abstraites vers des scénarios ancrés dans la réalité, offrant un terrain d'essai plus pertinent pour des applications comme la génération d'hypothèses scientifiques.
Limites actuelles des LLM : Les résultats suggèrent que les LLM actuels, bien qu'impressionnants, ont du mal à "sortir des sentiers battus" de manière fiable. Ils tendent à converger vers des solutions moyennes et ont du mal à explorer efficacement les espaces de recherche vastes sans guidance externe.
Implications pour le développement : Pour améliorer la créativité des agents IA, il faudra probablement aller au-delà de l'augmentation de la taille des modèles ou du budget de tokens, en se concentrant sur des mécanismes de recherche structurée, de diversification active et d'évitement de l'homogénéité.

En conclusion, CREATE fournit une "salle de sable" (sandbox) essentielle pour développer et tester de nouvelles méthodes visant à doter les LLM d'une véritable capacité de raisonnement associatif, indispensable pour l'innovation future.