🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Cet article présente SCALAR, un banc d'essai conçu pour évaluer la manière dont les modèles de fondation pour les matériaux gèrent la généralisation de l'échelle géométrique et le raisonnement structurel à travers diverses structures de nanoparticules, révélant que si un raisonnement explicite fondé sur la physique peut réduire les hallucinations et les erreurs, il compromet souvent la cohérence et la validité des résultats.

Auteurs originaux : Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Publié 2026-02-02

📖 6 min de lecture🧠 Analyse approfondie

CC BY 4.0

Auteurs originaux : Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous avez un maître architecte, incroyablement doué pour lire les plans de gratte-ciel parfaits et infinis. Cet architecte (un type d'IA appelée « modèle de fondation ») peut vous dire tout ce qu'il y a à savoir sur les matériaux, la résistance et la conception du bâtiment rien qu'en regardant le plan.

Mais attention : on n'a jamais demandé à cet architecte de concevoir une petite maquette de ce gratte-ciel faite en LEGO, ni de comprendre à quoi ressemble le gratte-ciel d'origine en tenant simplement une brique LEGO dans sa main.

Le papier présente un nouveau test appelé SCALAR pour voir si ces architectes IA sont capables de gérer le passage du « gratte-ciel infini » au « petit modèle en LEGO » sans perdre la tête.

Le problème central : Le piège de l'« hallucination »

Dans le monde de l'IA, une « hallucination » ne consiste pas seulement à inventer quelque chose ; c'est affirmer avec assurance quelque chose qui semble correct mais qui viole les lois de la physique.

Voyez cela comme ceci : si vous demandez à un humain d'imaginer une sphère parfaite faite d'eau, il sait qu'elle est ronde. Si vous lui demandez d'imaginer un cube d'eau, il pourrait hésiter car l'eau ne forme pas naturellement des cubes. Mais si vous demandez à une IA d'imaginer un « cristal d'eau cubique » et qu'elle répond avec assurance : « Oui, les coins sont tranchants et la densité est élevée », elle a halluciné. Elle a ignoré le fait que les molécules d'eau ne fonctionnent pas de cette manière.

L'article soutient que les modèles d'IA actuels sont excellents pour décrire la version « infinie » d'un matériau (le cristal massif), mais échouent souvent lamentablement lorsqu'on leur demande de décrire la version « finie » (une nanoparticule minuscule). Ils peuvent obtenir les bons chiffres, mais violent les règles sous-jacentes de la façon dont les atomes s'assemblent.

Comment fonctionne le test (Les trois défis)

Les chercheurs ont construit un ensemble massif de données comprenant 100 000 structures, allant de quelques atomes à plus de 18 000 atomes. Ils ont ensuite soumis l'IA à trois tests spécifiques :

Le test du « Dézoomage » (CIF vers Propriété) :
- La configuration : Vous donnez à l'IA le plan d'un cristal parfait (la « maille élémentaire »).
- La tâche : L'IA doit prédire les propriétés d'un petit morceau découpé de ce cristal (une « nanoparticule »).
- Le piège : L'IA doit comprendre comment les propriétés changent à mesure que le morceau devient plus grand ou plus petit.
- Le résultat : Beaucoup d'IA ont réussi les calculs de base mais ont échoué à comprendre la tendance. Elles n'ont pas réussi à dire de manière cohérente : « À mesure que la pièce devient plus grande, la densité devrait rester la même », ou « À mesure qu'elle devient plus petite, la surface de contact change ».
Le test du « Penser à voix haute » (Chaîne de pensée) :
- La configuration : Les chercheurs ont dit à l'IA : « Ne me donnez pas seulement la réponse ; expliquez votre raisonnement étape par étape en utilisant la physique ».
- Le résultat : Cela a été une arme à double tranchant. Parfois, forcer l'IA à « réfléchir » la rendait plus précise. Mais souvent, cela la rendait moins cohérente. Elle pouvait donner une excellente explication lors d'un essai, et une explication complètement différente et erronée lors du suivant, même pour la question exacte. C'est comme un étudiant qui peut résoudre un problème de mathématiques parfaitement s'il l'écrit, mais qui s'embrouille s'il doit expliquer pourquoi il l'a fait.
Le test du « Détective inversé » (Recherche inverse) :
- La configuration : Vous donnez à l'IA un ensemble de propriétés (ex : « Ce matériau est lourd, possède un volume spécifique et est très dense »).
- La tâche : L'IA doit choisir le bon plan parmi une série de candidats.
- Le résultat : Certaines IA ont été étonnamment douées pour cela, agissant comme des détectives. Cependant, d'autres ont choisi le mauvais plan même lorsque leur description du matériau était physiquement plausible. Elles ont trouvé un « quasi-succès » qui semblait correct, mais qui était en réalité le mauvais matériau.

La grande découverte : La précision est un mensonge

La conclusion la plus importante du papier est la suivante : vous ne pouvez pas faire confiance à une IA simplement parce qu'elle trouve le bon chiffre.

Imaginez un étudiant passant un examen.

Étudiant A obtient 90 % de bonnes réponses, mais change sa réponse à chaque fois que vous posez la même question.
Étudiant B obtient 85 % de bonnes réponses, mais ses réponses sont toujours cohérentes et suivent un schéma logique.

Les benchmarks actuels se contentent généralement de regarder le score (90 % contre 85 %). Ce papier dit : « Attendez une minute ! L'étudiant A est peu fiable car il ne peut pas maintenir son récit cohérent ».

Les chercheurs ont découvert que lorsqu'ils testaient l'IA sur des données « hors distribution » (des tailles que l'IA n'avait pas vues auparavant), la capacité de l'IA à rester cohérente et à suivre les lois de la physique s'effondrait, même si ses chiffres de précision brute semblaient corrects.

Ce qu'il faut retenir

L'article conclut que nous avons besoin d'une nouvelle façon de mesurer l'IA en science. Nous ne pouvons pas simplement demander : « Est-ce que la réponse est juste ? ». Nous devons demander :

« La réponse est-elle cohérente ? »
« Respecte-t-elle les lois de la physique ? »
« Hallucine-t-elle lorsque la taille de l'objet change ? »

Le benchmark SCALAR est un outil conçu pour attraper ces moments « intelligents mais fous » avant que nous ne fassions confiance à ces modèles d'IA pour concevoir de vrais matériaux pour des choses comme les batteries ou la médecine. C'est un rappel à la réalité pour s'assurer que, lorsque une IA parle d'atomes, elle parle réellement d'atomes, et non de simplement inventer une histoire qui semble scientifique.

Résumé Technique : Benchmark SCALAR pour les Modèles de Fondation en Science des Matériaux

Énoncé du Problème

Les grands modèles de langage (LLM) et les modèles de fondation sont de plus en plus appliqués au raisonnement en science des matériaux. Cependant, leur comportement face à des décalages de distribution structurellement organisés — spécifiquement les changements d'échelle structurelle — reste mal compris. Bien que les modèles puissent prédire avec précision les propriétés de cristaux massifs parfaits (représentés par des cellules unitaires), ils échouent souvent lorsqu'ils doivent raisonner sur des structures finies dérivées (nanoparticules) qui brisent l'invariance par translation.

Les évaluations actuelles se concentrent généralement sur la précision des tâches ou la correction du formatage, négligeant rarement l'évaluation de la cohérence inter-échelles. Cette omission permet aux modèles de produire des sorties qui semblent localement plausibles mais qui violent des invariants physiques globaux (par exemple, la symétrie cristallographique, les contraintes de conservation et les relations géométriques dépendantes de l'échelle). De telles violations constituent une forme structurée d'hallucination structurelle : des prédictions confiantes qui sont physiquement incorrectes en raison de la violation des invariants sous-jacents lors de décalages de distribution. Il existe un manque de jeux de données fournissant des représentations appariées du même objet à travers plusieurs échelles avec des partitions de sortie de la distribution (OOD) contrôlées pour diagnostiquer ces défaillances.

Méthodologie : Le Cadre SCALAR

Les auteurs introduisent SCALAR (Structural Consistency And Logic Across Regimes), un benchmark conçu pour évaluer la généralisation de l'échelle géométrique et son lien avec l'hallucination structurelle, la cohérence et le raisonnement.

1. Construction du Jeu de Données

Le jeu de données est dérivé de cellules unitaires relaxées par la DFT (Théorie de la Fonctionnelle de la Densité) de matériaux cristallins chimiquement divers (41 éléments uniques, incluant des systèmes riches en hydrogène pour le stockage d'énergie).

Phase I (Construction de Nanoparticules) : À partir d'une cellule unitaire primitive, une supercellule de $20 \times 20 \times 20$ est générée. Des nanoparticules finies sont créées par « sculpture sphérique », en conservant les atomes situés à l'intérieur d'une sphère de rayon $R$ centrée sur une origine. Les rayons varient de $10 $à$ 30$ Å, créant des structures allant de quelques atomes à plus de 18 000 atomes (totalisant environ $100\,000$ structures).
Phase II (Échantillonnage de Rotation) : Pour atténuer le biais d'orientation, les structures sont augmentées de rotations rigides échantillonnées sur $SO(3)$ à l'aide de quaternions unitaires. Un échantillonneur glouton garantit un espacement géodésique minimal entre les rotations.
Phase III (Partitionnement Sensible aux Splits) : Le jeu de données est divisé en ensembles d'Entraînement, de Test en Distribution (ID) et de Test Hors Distribution (OOD).
- Séparation ID/OOD : Les rotations dans les ensembles ID et OOD sont strictement séparées de l'ensemble d'entraînement par des marges d'exclusion ( $\epsilon_{ID} = 8^\circ$ , $\epsilon_{OOD} = 8^\circ$ ) et des paramètres d'espacement spécifiques.
- Partitionnement des Rayons : L'entraînement inclut les rayons $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ . Le test ID utilise $\{13, 15, 17, 20, 24, 27\}$ , tandis que le test OOD utilise les rayons extrêmes $\{10, 11, 29, 30\}$ pour sonder l'extrapolation d'échelle.

2. Tâches d'Évaluation

SCALAR définit trois tâches pour sonder différents aspects de la capacité des modèles :

Prédiction de Propriétés CIF à Propriété : Les modèles prédisent les propriétés des nanoparticules (densité, volume, distance de plus proche voisin) à partir d'un fichier d'information cristallographique (CIF).
Raisonnement par Chaîne de Pensée (CoT) : Une variante de la tâche 1 exigeant des étapes de raisonnement explicites et ancrées dans la physique avant la prédiction finale.
Recherche Inverse : Étant donné des propriétés cibles, les modèles doivent identifier la structure cristalline correcte parmi un ensemble de candidats.

3. Métriques

Les sorties sont évaluées via des métriques structurées capturant :

Taux d'Hallucination : Fréquence des prédictions violant les contraintes physiques (ex: densités négatives) ou des échecs d'auto-cohérence.
Cohérence : Écart-type des prédictions numériques à travers $N=5$ requêtes indépendantes.
Qualité du Raisonnement : Corrélation de rang de Spearman entre les changements de propriétés prédits à travers les rayons et les deltas réels.
Précision : Erreur Absolue Moyenne (MAE) pour les prédictions numériques.
Distance Physique et Regret : Pour la recherche inverse, distance $L_2$ normalisée entre les vecteurs de propriétés cibles et proposés, et la sous-optimalité du candidat sélectionné.

Résultats Clés

Les expériences menées sur divers modèles de fondation (incluant GPT-5 Mini, o3-mini, Grok, Claude et des variantes de LLaMA) révèlent des conclusions significatives :

Défaillances Dépendantes de l'Échelle : Les décalages d'échelle géométrique exposent des défaillances systématiques dans le raisonnement physique et la cohérence inter-échelles qui ne sont pas apparentes par la simple précision agrégée. Les taux d'hallucination et d'incohérence augmentent brusquement sous les échelles OOD, même lorsque l'erreur numérique ne se dégrade que modérément.
Variabilité selon le Modèle : La performance dépend fortement du modèle. Par exemple, dans la recherche inverse, Grok 4.1 Fast a atteint une précision top-1 élevée ($0,808$ ID, $0,793$ OOD), tandis que d'autres comme Claude 3 Haiku ont montré des erreurs de distance physique significatives.
Sensibilité Spécifique aux Matériaux : Les erreurs ne sont pas uniformes ; elles dépendent fortement de la structure. Certains matériaux (ex: $LiCaH_3$ ) montrent des augmentations relatives d'erreur massives ( $>30\%$ ) ou des inversions de signe dans les régimes OOD, tandis que d'autres restent stables.
Compromis de la Chaîne de Pensée (CoT) : Le prompting CoT produit des résultats hétérogènes. Bien qu'il réduise souvent les erreurs numériques et les taux d'hallucination, il déstabilise fréquemment la cohérence ou dégrade la qualité du raisonnement pour certains modèles. Les gains dans les explications intermédiaires ne se traduisent pas systématiquement par des prédictions plus stables ou physiquement cohérentes.
Limitations de la Recherche Inverse : Une haute précision dans la sélection du bon candidat ne garantit pas la fidélité physique. Certains modèles maintiennent des distances physiques faibles (erreurs de type "presque correct") malgré une précision de recherche modérée, tandis que d'autres échouent totalement à s'aligner sur les propriétés physiques.
Comparaisons de Référence (Baselines) : Tant les LLM textuels que les réseaux de neurones sur graphes natifs de la géométrie (ex: SchNet, E(3)NN) présentent une dégradation substantielle dépendante de l'échelle, les GNN montrant des augmentations de MAPE passant d'environ $100\%$ à plus de $300\%$ dans les régimes OOD. Les baselines analytiques basées sur les lois d'échelle de volume performent bien sur les propriétés intensives mais échouent sur les propriétés extensives.

Signification et Revendications

L'article affirme que la généralisation de l'échelle géométrique ne peut être inférée par la seule précision.

Hallucination Fondée : Les auteurs soutiennent que les erreurs violant les invariants physiques globaux sous les décalages d'échelle structurelle constituent une forme spécifique et documentée d'hallucination qui nécessite un diagnostic ciblé.
Valeur Diagnostique : SCALAR fournit un « prisme fondé » pour diagnostiquer les échecs de généralisation géométrique invisibles pour les métriques de précision moyenne du modèle. Il souligne que les métriques d'erreur de surface sous-estiment systématiquement les défaillances du raisonnement structurel et physique.
Limites des Prompts Actuels : L'étude démontre que le prompting CoT n'est pas une intervention monotone ou universellement bénéfique ; il introduit des compromis où un raisonnement amélioré peut se faire au détriment de la cohérence.
Direction Future : En formulant l'hallucination comme une conséquence de l'incohérence géométrique et chimique, SCALAR offre un cadre pour diagnostiquer et atténuer les défaillances sous des décalages de distribution structurelle réalistes, ouvrant la voie à un déploiement plus fiable des modèles de fondation en science des matériaux.

Les auteurs notent explicitement des limitations, notamment l'accent du jeu de données sur l'expansion déterministe des supercellules (ignorant le désordre/les défauts), l'utilisation de calculs géométriques classiques plutôt que d'observables quantiques, et le potentiel d'instabilité du formatage CoT compliquant l'attribution.