HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du papier de recherche HypoSpace, conçue pour être comprise par tout le monde, sans jargon technique.

🧠 Le Problème : L'énigme aux mille solutions

Imaginez que vous êtes détective. Vous arrivez sur une scène de crime et vous trouvez une seule empreinte de pas.

Le problème : Cette empreinte pourrait appartenir à un voleur en bottes, à un jardinier, ou même à un chien qui a marché là. Il y a des dizaines de suspects possibles qui correspondent tous à la même preuve.
La limite des IA actuelles : Les intelligences artificielles (comme les grands modèles de langage) sont très douées pour trouver un coupable. Elles vous diront : "C'est le jardinier !" et c'est vrai, c'est cohérent avec les preuves.
Le manque : Mais elles oublient souvent de vous dire : "Attendez, il y a aussi le voleur et le chien qui pourraient être coupables !" Elles se contentent d'une seule réponse, même quand la réalité en admet plusieurs. C'est ce qu'on appelle un problème sous-déterminé : les preuves ne suffisent pas à isoler une seule vérité.

🛠️ La Solution : HypoSpace, le "Terrain de Jeu" pour les IA

Les auteurs ont créé un outil appelé HypoSpace. Imaginez-le comme un grand terrain de jeu de construction où l'on teste si les IA peuvent explorer toutes les possibilités, et pas juste la première qui leur vient à l'esprit.

Au lieu de demander à l'IA "Quelle est la réponse ?", on lui demande : "Peux-tu me donner toutes les réponses possibles qui sont vraies ?"

Pour mesurer cela, ils utilisent trois règles du jeu (des métriques) :

La Validité (Est-ce que c'est vrai ?) : L'IA a-t-elle trouvé des solutions qui respectent les règles ? (Ex: Le jardinier a bien une empreinte).
L'Originalité (Est-ce que c'est varié ?) : L'IA répète-t-elle toujours la même chose, ou trouve-t-elle des idées différentes ? (Ex: Ne pas dire "Jardinier" dix fois, mais trouver "Voleur" et "Chien").
La Récupération (A-t-elle tout trouvé ?) : Sur la liste complète de toutes les solutions possibles (que les humains connaissent grâce à des calculs précis), combien l'IA a-t-elle réussie à découvrir ?

🎮 Les Trois Jeux de l'Expérience

Pour tester les IA, ils ont créé trois types de puzzles :

Le Puzzle des Causes (Causalité) : On donne à l'IA une liste d'effets (ex: "Si je pousse A, B bouge"). Elle doit dessiner tous les schémas possibles de liens entre les objets qui expliquent ce phénomène.
Le Puzzle des Blocs 3D (Gravity) : On montre à l'IA une ombre projetée au sol (vue de dessus). Elle doit reconstruire tous les châteaux de blocs 3D possibles qui pourraient faire cette ombre, tout en respectant la gravité (les blocs ne peuvent pas flotter).
Le Puzzle des Gènes (Booléens) : On donne des résultats d'expériences génétiques (ex: "Si le gène X est actif et Y non, le résultat est rouge"). L'IA doit inventer toutes les formules mathématiques possibles qui expliquent ces résultats.

📉 Ce qu'ils ont découvert : Le syndrome du "Mouton"

Les résultats sont révélateurs et un peu inquiétants :

Les IA sont de bonnes élèves, mais paresseuses : Elles trouvent presque toujours une réponse correcte (Haute Validité).
Mais elles manquent d'imagination : Dès que le nombre de solutions possibles devient grand, elles se bloquent. Elles continuent de répéter les mêmes 2 ou 3 solutions qu'elles préfèrent, même s'il en existe des centaines d'autres.
L'analogie du "Mouton" : Imaginez un troupeau de moutons. Si vous demandez à un berger (l'IA) de trouver tous les moutons, il en trouvera un ou deux très vite. Mais au lieu de chercher les autres, il restera collé à ceux-là. C'est ce qu'on appelle un effondrement de mode (ou mode collapse). L'IA pense que la première solution qu'elle trouve est la seule qui compte.

Même les IA les plus avancées (les "modèles de raisonnement") tombent dans ce piège : elles sont très intelligentes pour trouver une bonne réponse, mais elles ne savent pas explorer toutes les réponses.

💡 La Petite Astuce Magique : "Le Tri par Complexité"

Les chercheurs ont essayé une astuce simple pour aider les IA à sortir de leur zone de confort. Au lieu de leur dire "Trouve-moi des solutions", ils leur disent :

"Trouve-moi d'abord des solutions simples."
"Maintenant, trouve-moi des solutions un peu plus complexes."
"Enfin, trouve-moi des solutions très complexes."

C'est comme si on forçait le détective à vérifier d'abord les suspects évidents, puis les suspects suspects, puis les suspects improbables.
Résultat : Cela aide l'IA à trouver beaucoup plus de solutions différentes, surtout les plus complexes qu'elle ignorait habituellement.

🌍 Pourquoi c'est important pour le monde réel ?

Ce n'est pas juste un jeu. Dans la vraie science (comme pour découvrir de nouveaux médicaments ou comprendre des maladies génétiques), il y a souvent plusieurs explications possibles à un phénomène.
Si une IA nous dit : "Voici la seule cause de cette maladie", elle pourrait nous tromper en ignorant les autres causes possibles. HypoSpace nous apprend à ne pas faire confiance aveuglément à une seule réponse, mais à demander à l'IA : "As-tu bien cherché toutes les possibilités ?"

En résumé

HypoSpace est un test de "créativité scientifique" pour les IA. Il révèle que même les IA les plus intelligentes ont tendance à s'arrêter à la première bonne réponse qu'elles trouvent, au lieu d'explorer tout l'univers des possibilités. L'objectif n'est pas de les punir, mais de comprendre comment les aider à devenir de véritables explorateurs scientifiques, capables de voir toute la forêt et pas seulement un seul arbre.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Indétermination Scientifique et les Limites des LLM

De nombreux problèmes scientifiques sont sous-déterminés : un même ensemble d'observations peut être expliqué par plusieurs hypothèses mécanistiquement distinctes et également valides (ex. : imagerie des sources EEG, reconstruction 3D, interactions génétiques).

Dans ce contexte, un système de raisonnement scientifique performant ne doit pas se contenter de trouver une explication valide, mais doit être capable d'explorer systématiquement l'ensemble des hypothèses admissibles. Or, les benchmarks actuels pour les Grands Modèles de Langage (LLM) se concentrent sur la justesse d'une seule réponse, ignorant la capacité du modèle à énumérer et couvrir l'espace des solutions possibles.

Le papier pose la question centrale : Les LLM peuvent-ils explorer systématiquement les espaces d'hypothèses dans des situations d'indétermination, ou souffrent-ils d'un effondrement de mode (mode collapse) en se focalisant sur un sous-ensemble restreint de solutions ?

2. Méthodologie : Le Benchmark HypoSpace

Les auteurs introduisent HypoSpace, une suite diagnostique conçue pour évaluer les LLM non pas comme des générateurs de réponses uniques, mais comme des échantillonneurs sur des espaces d'hypothèses finis et exactement énumérables.

A. Cadre d'évaluation

Le framework repose sur trois métriques complémentaires qui dissocient la justesse de l'exploration :

Validité (Validity - VR) : Mesure la fidélité de sélection. Quel pourcentage des hypothèses générées sont cohérentes avec les observations ?
Unicité (Uniqueness - NR) : Mesure l'originalité. Quel pourcentage des hypothèses générées sont non redondantes (dédupliquées) ?
Récupération (Recovery - RR) : Mesure la fluidité et la couverture. Quelle fraction de l'ensemble admissible de ground truth ( $H_O$ ) est couverte par les hypothèses valides et uniques générées ?

B. Domaines d'application structurés

HypoSpace utilise trois domaines où l'ensemble des solutions valides peut être énuméré de manière déterministe, éliminant ainsi la subjectivité de l'évaluation :

Inférence de graphes causaux : Inférer tous les DAG (Directed Acyclic Graphs) compatibles avec des observations d'interventions sur des nœuds uniques.
Reconstruction de voxels 3D sous contrainte de gravité : Reconstruire des configurations spatiales 3D à partir de projections 2D, en respectant les règles de gravité (les voxels doivent former des piles continues).
Interactions génétiques booléennes : Proposer des expressions booléennes reliant des phénotypes observés à des programmes sous-jacents, avec un canoniseur mécanique pour éliminer les équivalences algébriques.

C. Protocole d'échantillonnage

Pour chaque instance de problème, l'ensemble complet des hypothèses valides ( $H_O$ ) est pré-calculé. Les LLM sont invités à générer $N$ hypothèses (généralement $N = |H_O|$ ). Les sorties sont validées par des vérificateurs déterministes et dédupliquées pour calculer les métriques VR, NR et RR.

3. Contributions Clés

Formulation Théorique : Première cadre systématique traitant l'évaluation des LLM comme un problème d'inférence à valeurs d'ensemble sous indétermination. L'article fournit une analyse théorique montrant que pour des générateurs à distribution "pointue" (peaked distributions), la couverture complète de l'espace nécessite un budget d'échantillonnage exponentiel, expliquant mathématiquement l'échec de récupération.
Suite Diagnostique Contrôlée : Création de trois tâches structurées avec des ground truths exactement énumérables, permettant une mesure objective de la couverture sans recourir à un "LLM-juge".
Découvertes Empiriques : Mise en évidence d'un effondrement de mode systématique chez les modèles de pointe (frontier models). Bien que ces modèles maintiennent un taux de validité élevé, leur unicité et leur récupération chutent drastiquement à mesure que la taille de l'espace d'hypothèses ( $|H_O|$ ) augmente.
Contribution Méthodologique : Introduction d'une méthode de décodage stratifié par complexité (Complexity-Stratified Decoding) comme solution sans entraînement (training-free) pour atténuer ce biais.

4. Résultats Expérimentaux

Les auteurs ont évalué une gamme de modèles (GPT-5, Gemini-2.5-Pro, Claude-Opus-4, DeepSeek-R1, Grok-4, GPT-4o, LLaMA-3.3) sur les trois tâches.

Tendance Générale : Tous les modèles, y compris les modèles de raisonnement ("reasoning models"), souffrent d'un effondrement de mode.
- Validité (VR) : Reste souvent élevée (proche de 100% pour les modèles avancés sur les tâches simples).
- Unicité (NR) et Récupération (RR) : Dégradation prévisible et sévère à mesure que la difficulté augmente. Les modèles tendent à réitérer un petit sous-ensemble d'explications admissibles plutôt que d'explorer l'espace complet.
Comparaison des Modèles : Les modèles dotés de capacités de raisonnement (ex. GPT-5, DeepSeek-R1) surpassent les modèles non-raisonneurs (ex. LLaMA-3.3) sur les métriques d'unicité et de récupération, mais ne parviennent pas à éliminer le problème d'effondrement.
Analyse de l'Effondrement : L'étude montre que les modèles sont attirés par un petit nombre d'hypothèses "préférées" (souvent de faible complexité structurelle), ignorant la "longue queue" de l'espace des solutions.
Solution : Décodage Stratifié : En forçant le modèle à générer des hypothèses par niveaux de complexité structurelle (nombre d'arêtes, nombre d'opérateurs, etc.), les auteurs parviennent à améliorer la récupération sur des hypothèses complexes pour plusieurs modèles (ex. +9% pour GPT-4o, +17% pour Grok-4), bien que cela puisse réduire la récupération sur les hypothèses simples.

5. Étude sur des Données Réelles

Pour valider la pertinence du benchmark, les auteurs l'ont appliqué à des données génétiques réelles (module de trafic vésiculaire chez la levure, Costanzo et al., 2016).

Ils ont énuméré les hypothèses booléennes compatibles avec des observations de knock-out (KO) simples et doubles.
Résultat : L'ajout d'observations (double-KO) réduit drastiquement l'espace des hypothèses valides (phénomène d'indétermination). Les modèles performants (GPT-5, Grok-4) ont atteint une validité parfaite et une récupération élevée, tandis que les modèles plus faibles ont échoué à produire une seule hypothèse cohérente, confirmant que les métriques de HypoSpace capturent des dimensions critiques du raisonnement scientifique.

6. Signification et Impact

Diagnostic vs Leaderboard : HypoSpace ne vise pas à classer les modèles pour un leaderboard, mais à diagnostiquer leurs limites fondamentales dans l'exploration de solutions sous indétermination.
Implications pour la Recherche Scientifique : L'article démontre que les LLM actuels, même les plus avancés, ne sont pas encore des explorateurs fiables d'espaces de solutions complexes. Ils excellent à trouver une réponse correcte mais échouent à cartographier l'ensemble des possibilités, ce qui est crucial pour la découverte scientifique.
Direction Future : Les résultats suggèrent que l'amélioration de la couverture ne passera pas simplement par l'augmentation du budget d'échantillonnage (ce qui est inefficace pour les distributions pointues), mais par la restructuration de la distribution d'échantillonnage (ex. via le décodage stratifié ou des mécanismes de rééquilibrage).

En résumé, HypoSpace fournit une preuve quantitative que les LLM actuels souffrent d'un biais d'exploration sévère dans les problèmes scientifiques sous-déterminés, et propose des outils pour mesurer et atténuer ce phénomène.