🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Dit artikel introduceert SCALAR, een benchmark die is ontworpen om te evalueren hoe fundamentele modellen voor materialen omgaan met geometrische schaalgeneralisatie en structurele redenering over diverse nanodeeltjesstructuren heen, wat onthult dat hoewel expliciete op fysica gebaseerde redenering hallucinaties en fouten kan verminderen, het vaak de consistentie en validiteit van de output compromitteert.

Oorspronkelijke auteurs: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Gepubliceerd 2026-02-02

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een meesterarchitect hebt die ongelooflijk goed is in het lezen van blauwdrukken voor perfecte, oneindige wolkenkrabbers. Deze architect (een type AI genaamd een "foundation model") kan je alles vertellen over de materialen, de sterkte en het ontwerp van het gebouw door alleen maar naar de blauwdruk te kijken.

Maar hier zit de adder onder het gras: de architect is nooit gevraagd om een miniatuurmodel van die wolkenkrabber te ontwerpen van LEGO, noch is er ooit aan de architect gevraagd om uit te zoeken hoe de oorspronkelijke wolkenkrabber eruitziet door slechts één enkele LEGO-steen in de hand te houden.

De paper introduceert een nieuwe test genaamd SCALAR om te zien of deze AI-architecten de overstap van "oneindige wolkenkrabber" naar "klein LEGO-model" kunnen maken zonder hun verstand te verliezen.

Het kernprobleem: De "Hallucinatie"-valstrik

In de wereld van AI is een "hallucinatie" niet alleen iets verzinnen; het is vol vertrouwen iets beweren dat weliswaamt klinkt, maar de wetten van de natuurkunde overtreedt.

Denk er zo over na: Als je een mens vraagt zich een perfecte bol van water voor te stellen, weet diegene dat het rond is. Als je die persoon vraagt om een kubus van water voor te stellen, zal hij misschien aarzelen omdat water van nature geen kubussen vormt. Maar als je een AI vraft om een "kubische waterkristal" voor te stellen en de AI zegt vol vertrouwen: "Ja, de hoeken zijn scherp en de dichtheid is hoog," dan heeft de AI gehallucineerd. De AI negeerde het feit dat watermoleculen niet op die manier werken.

De paper stelt dat huidige AI-modellen geweldig zijn in het beschrijven van de "oneindige" versie van een materiaal (het bulk kristal), maar vaak hopeloos falen wanneer ze gevraagd worden de "eindige" versie (een klein nanodeeltje) te beschrijven. Ze halen misschien de cijfers wel goed, maar schenden ze de onderliggende regels van hoe atomen aan elkaar plakken.

Hoe de test werkt (De drie uitdagingen)

De onderzoekers bouwden een enorme dataset van 100.000 structuren, variërend van een paar atomen tot meer dan 18.000 atomen. Vervolgens lieten ze de AI drie specifieke tests ondergaan:

De "Uitzoomen"-test (CIF naar Eigenschap):
- De Opzet: Je geeft de AI de blauwdruk van een perfect kristal (de "Unit Cell").
- De Taak: De AI moet de eigenschappen voorspellen van een klein, afgesneden stukje van dat kristal (een "Nanopartikel").
- De Twist: De AI moet ontdekken hoe de eigenschappen veranderen naarmate het stukje groter of kleiner wordt.
- Het Resultaat: Veel AI's kregen de basiswiskunde wel goed, maar begrepen de trend niet. Ze konden niet consistent zeggen: "Naarmate het stukje groter wordt, moet de dichtheid gelijk blijven," of "Naarmate het kleiner wordt, verandert het oppervlak."
De "Hardop Denken"-test (Chain-of-Thought):
- De Opzet: De onderzoekers zeiden tegen de AI: "Geef me niet alleen het antwoord; leg je redenering stap voor stap uit met behulp van natuurkunde."
- Het Resultaat: Dit was een tweesnijdend zwaard. Soms maakte het dwingen van de AI om te "denken" het nauwkeuriger. Maar vaak maakte het de AI juist minder consistent. De AI gaf in de ene poging een geweldige uitleg, maar in de volgende poging een volkomen andere (en foute) uitleg, zelfs voor exact dezelfde vraag. Het is als een student die een wiskundig probleem perfect oplost als hij het opschrijft, maar in de war raakt als hij moet uitleggen waarom hij het deed.
De "Detective"-test (Inverse Retrieval):
- De Opzet: Je geeft de AI een reeks eigenschappen (bijv. "Dit materiaal is zwaar, heeft een specifiek volume en is erg dicht").
- De Taak: De AI moet de juiste blauwdruk kiezen uit een selectie van kandidaten.
- Het Resultaat: Sommige AI's waren verrassend goed in dit, waarbij ze als detectives optraden. Echter, anderen kozen de verkeerde blauwdruk, zelfs wanneer hun beschrijving van het materiaal fysiek plausibel was. Ze kozen een "bijna-match" die weliswaar goed klonk, maar feitelijk het verkeerde materiaal was.

De Grote Ontdekking: Nauwkeurigheid is een Leugen

De belangrijkste bevinding van de paper is dat je een AI niet kunt vertrouwen enkel omdat hij het juiste getal geeft.

Stel je een student voor die een toets maakt.

Student A heeft 90% van de antwoorden goed, maar verandert zijn antwoord elke keer als je hem dezelfde vraag stelt.
Student B heeft 85% goed, maar zijn antwoorden zijn altijd consistent en volgen een logisch patroon.

Huidige benchmarks kijken meestal alleen naar de score (90% vs 85%). Deze paper zegt: "Wacht eens even! Student A is onbetrouwbaar omdat hij zijn verhaal niet consistent kan houden."

De onderzoekers ontdekten dat wanneer ze de AI testten op "Out-of-Distribution" data (maten die de AI nog niet eerder had gezien), het vermogen van de AI om consistent te blijven en de natuurwetten te volgen instortte, zelfs als de ruwe nauwkeurigheidscijfers er oké uitzagen.

De Conclusie

De paper concludeert dat we een nieuwe manier nodig hebben om AI in de wetenschap te meten. We kunnen niet alleen vragen: "Is het antwoord juist?" We moeten ook vragen:

"Is het antwoord consistent?"
"Volgt het de wetten van de natuurkunde?"
"Hallucineert de AI wanneer de grootte van het object verandert?"

De SCALAR benchmark is een instrument dat is ontworast om deze "slimme maar krankzinnige" momenten te vangen voordat we deze AI-modellen vertrouwen bij het ontwerpen van echte materialen voor zaken als batterijen of medicijnen. Het is een realiteitscheck om ervoor te zorgen dat wanneer een AI over atomen praat, hij ook echt over atomen praat, en niet alleen een verhaal verzint dat wetenschappelijk klinkt.

Technische Samenvatting: SCALAR Benchmark voor Materiaal Foundation Modellen

Probleemstelling

Large Language Models (LLM's) en foundation modellen worden steeds vaker toegepast op redeneren in de materiaalkunde. De manier waarop zij zich echter gedragen onder fysisch gestructureerde distributieverschuivingen—specifiek veranderingen in structurele schaal—blijft onvoldoende begrepen. Ho ben modellen accuraat kunnen zijn in het voorspellen van eigenschappen voor perfecte bulkkristallen (gerepresenteerd door eenheidscellen), falen ze vaak wanneer ze de taak krijgen om te redeneren over afgeleide eindige structuren (nanodeeltjes) die translationele invariantie doorbreken.

Huidige evaluaties richten zich doorgaans op taaknauwkeurigheid of formateringscorrectheid, en beoordelen zelden cross-scale consistentie. Dit gebrek aan aandacht staat toe dat modellen outputs produceren die lokaal plausibel lijken, maar globale fysische invarianten schenden (bijv. kristallografische symmetrie, conserveringswetten en schaalafhankelijke geometrische relaties). Dergelijke schendingen vormen een fundamentele vorm van structurele hallucinatie: zelfverzekerde voorspellingen die fysisch incorrect zijn vanwege de schending van onderliggende invarianten onder distributieverschuivingen. Er is een gebrek aan datasets die paren van representaties van hetzelfde object op meerdere schalen bieden met gecontroleerde out-of-distribution (OOD) splitsingen om deze fouten te diagnosticeren.

Methodologie: Het SCALAR Framework

De auteurs introduceren SCALAR (Structural Consistency And Logic Across Regimes), een benchmark ontworpen om geometrische schaalgeneralisatie en de verbinding met structurele hallucinatie, consistentie en redeneren te evalueren.

1. Dataset Constructie

De dataset is afgeleid van DFT-gerelaxeerde eenheidscellen van chemisch diverse kristallijne materialen (41 unieke elementen, inclusief waterstofrijke systemen voor energieopslag).

Fase I (Nanodeeltje Constructie): Vertrekkend vanuit een primitieve eenheidscel wordt een $20 \times 20 \times 20$ supercel gegenereerd. Eindige nanodeeltjes worden gecreëerd door middel van "spherical carving", waarbij atomen binnen een sfeer van straal $R$ gecentreerd rond een oorsprong worden behouden. De radii variëren van $10$ tot $30$ Å, wat structuren creëert die variëren van enkele atomen tot meer dan 18.000 atomen (totaal $\approx 100.000$ structuren).
Fase II (Rotatie Sampling): Om oriëntatiebias te mitigeren, worden structuren uitgebreid met rigide rotaties gesampled op $SO(3)$ met behulp van unit quaternions. Een greedy sampler zorgt voor een minimale geodesische afstand tussen rotaties.
Fase III (Split-Aware Partitioning): De dataset is opgesplitst in Training, In-Distribution (ID) Test, en Out-of-Distribution (OOD) Test sets.
- ID/OOD Scheiding: Rotaties in de ID- en OOD-sets zijn strikt gescheiden van de trainingsset door exclusiemarges ( $\epsilon_{ID} = 8^\circ$ , $\epsilon_{OOD} = 8^\circ$ ) en specifieke spacing parameters.
- Radius Partitioning: Training bevat radii $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ . De ID-test gebruikt $\{13, 15, 17, 20, 24, 27\}$ , terwijl de OOD-test extreme radii gebruikt $\{10, 11, 29, 30\}$ om schaal extrapolatie te testen.

2. Evaluatietaken

SCALAR definieert drie taken om verschillende aspecten van modelcapaciteit te testen:

CIF naar Eigenschap Voorspelling: Modellen voorspellen de eigenschappen van nanodeeltjes (dichtheid, volume, naburige afstand) gegeven een Crystallographic Information File (CIF).
Chain-of-Thought (CoT) Redeneren: Een variant van Taak 1 die expliciete, op fysica gebaseerde redeneerstappen vereist vóór de uiteindelijke voorspelling.
Inverse Retrieval: Gegeven doel-eigenschappen moeten modellen de correcte kristalstructuur identificeren uit een set kandidaten.

3. Metrieken

Outputs worden geëvalueerd via gestructureerde metrieken die de volgende zaken vastleggen:

Hallucinatie Ratio: Frequentie van voorspellingen die fysische beperkingen schenden (bijv. negatieve dichtheden) of zelfconsistentie-fouten.
Consistentie: Standaarddeviatie van numerieke voorspellingen over $N=5$ onafhankelijke queries.
Redeneerkwaliteit: Spearman rangcorrelatie tussen voorspelde eigenschapsveranderingen over radii en de grondwaarheid delta's.
Nauwkeurigheid: Mean Absolute Error (MAE) voor numerieke voorspellingen.
Fysische Afstand & Regret: Voor inverse retrieval, genormaliseerde $L_2$ afstand tussen doel en voorgestelde eigenschapsvectoren, en de suboptimaliteit van de geselecteerde kandidaat.

Belangrijkste Resultaten

Experimenten over diverse foundation modellen (inclusief GPT-5 Mini, o3-mini, Grok, Claude, en LLaMA varianten) onthullen significante bevindingen:

Schaalafhankelijke Breuklijnen: Geometrische schaalverschuivingen leggen systematische fouten in fysisch redeneren en cross-scale consistentie bloot die niet zichtbaar zijn via geaggregeerde nauwkeurigheid alleen. Hallucinatie ratio's en inconsistentie nemen scherp toe onder OOD-schalen, zelfs wanneer de numerieke fout slechts gematigd degradeert.
Modelafhankelijke Variabiliteit: Prestaties zijn sterk modelafhankelijk. Zo bereikte Grok 4.1 Fast in inverse retrieval een hoge top-1 nauwkeurigheid ($0.808$ ID, $0.793$ OOD), terwijl anderen zoals Claude 3 Haiku significante fouten in fysische afstand vertoonden.
Materiaal-Specifieke Sensitiviteit: Fouten zijn niet uniform; ze zijn sterk structuurafhankelijk. Sommige materialen (bijv. $LiCaH_3$ ) vertonen enorme relatieve fouttoenames ( $>30\%$ ) of tekenomkeringen in OOD-regimes, terwijl anderen stabiel blijven.
Chain-of-Thought (CoT) Trade-offs: CoT prompting levert heterogene resultaten op. Hoewel het vaak numerieke fouten en de hallucinatie ratio vermindert, destabiliseert het frequent de consistentie of degradeert het de kwaliteit van het redeneren voor specifieke modellen. Winsten in tussenliggende verklaringen vertalen zich niet betrouwbaar naar meer stabiele of fysisch consistente voorspellingen.
Beperkingen van Inverse Retrieval: Een hoge nauwkeurigheid bij het selecteren van de juiste kandidaat garandeert geen fysische getrouwheid. Sommige modellen behouden een lage fysische afstand (near-miss fouten) ondanks gematigde retrieval nauwkeurigheid, terwijl andere totaal niet in lijn liggen met de fysische eigenschappen.
Baseline Vergelijkingen: Zowel tekstgebaseerde LLM's als geometrie-native graph neural networks (bijv. SchNet, E(3)NN) vertonen substantiële schaalafhankelijke degradatie, waarbij GNN's een stijging in MAPE laten zien van $\approx 100\%$ naar $>300\%$ in OOD-regimes. Analytische baselines gebaseerd op volume schaalwetten presteren goed op intensieve eigenschappen maar falen op extensieve eigenschappen.

Betekenis en Claims

Het artikel claimt dat geometrische schaalgeneralisatie niet kan worden afgeleid van nauwkeurigheid alleen.

Geprincipeerde Hallucinatie: De auteurs stellen dat fouten die globale fysische invarianten schenden onder structurele schaalverschuivingen een specifieke, geprincipeerde vorm van hallucinatie vormen die een gerichte diagnose vereist.
Diagnostische Waarde: SCALAR biedt een "geprincipeerd prisma" voor het diagnosticeren van geometrische generalatiefouten die onzichtbaar zijn voor gemiddelde nauwkeurigheidsmetrieken. Het benadrukt dat oppervlakkige foutmetrieken falen in structureel en fysisch redeneren systematisch onderschatten.
Beperkingen van Huidige Prompts: De studie demonstreert dat CoT prompting geen monotone of universeel gunstige interventie is; het introduceert trade-offs waarbij verbeterd redeneren ten koste kan gaan van consistentie.
Toekomstige Richting: Door hallucinatie te kaderen als een gevolg van geometrische en chemische inconsistentie, biedt SCALAR een setting voor het diagnosticeren en mitigeren van fouten onder realistische structurele distributieverschuivingen, wat de weg vrijmaakt voor een betrouwbaardere inzet van foundation modellen in de materiaalkunde.

De auteurs merken expliciet beperkingen op, waaronder de focus van de dataset op deterministische supercel expansie (het negeren van wanorde/defecten), het gebruik van klassieke geometrische computaties in plaats van kwantum observables, en het potentieel voor CoT formateringsinstabiliteit die attributie bemoeilijkt.