🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Questo articolo introduce SCALAR, un benchmark progettato per valutare come i modelli di fondazione per i materiali gestiscano la generalizzazione della scala geometrica e il ragionamento strutturale attraverso diverse strutture di nanoparticelle, rivelando che sebbene il ragionamento esplicito basato sulla fisica possa ridurre allucinazioni ed errori, esso spesso compromette la coerenza e la validità dell'output.

Autori originali: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Pubblicato 2026-02-02

📖 5 min di lettura🧠 Approfondimento

CC BY 4.0

Autori originali: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta né approvata dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Immagina di avere un architetto capo che è incredibilmente bravo a leggere le planimetrie per grattacieli perfetti e infiniti. Questo architetto (un tipo di IA chiamata "modello di base") può dirti tutto sui materiali, la resistenza e il design di un edificio guardando semplicemente la planimetria.

Ma ecco il problema: all'architetto non è mai stato chiesto di progettare un piccolo modello di quel grattacielo fatto di LEGO, né gli è mai stato chiesto di capire che aspetto ha il grattacielo originale tenendo in mano un singolo mattoncino LEGO.

Il documento introduce un nuovo test chiamato SCALAR per vedere se questi architetti IA sono in grado di gestire il passaggio dal "grattacielo infinito" al "piccolo modello LEGO" senza perdere la testa.

Il Problema Centrale: La Trappola dell' "Allucinazione"

Nel mondo dell'IA, una "allucinazione" non è solo inventare qualcosa; è affermare con sicurezza qualcosa che sembra corretto ma che viola le leggi della fisica.

Pensa a questo: se chiedi a un essere umano di immaginare una sfera perfetta fatta d'acqua, saprà che è rotonda. Se gli chiedi di immaginare un cubo d'acqua, potrebbe esitare perché l'acqua non prende naturalmente forme cubiche. Ma se chiedi a un'IA di immaginare un "cristallo d'acqua cubico" e questa afferma con sicurezza: "Sì, gli angoli sono netti e la densità è elevata", ha allucinato. Ha ignorato il fatto che le molecole d'acqua non funzionano in quel modo.

Il documento sostiene che gli attuali modelli di IA sono bravissimi a descrivere la versione "infinita" di un materiale (il cristallo massivo), ma spesso falliscono miseramente quando gli viene chiesto di descrivere la versione "finita" (una minuscola nanoparticella). Potrebbero ottenere i numeri corretti, ma violano le regole sottostanti di come gli atomi si legano tra loro.

Come Funziona il Test (Le Tre Sfide)

I ricercatori hanno costruito un enorme dataset di 100.000 strutture, che vanno da pochi atomi a oltre 18.000 atomi. Hanno poi sottoposto l'IA a tre test specifici:

Il Test dello "Zoom-Out" (CIF to Property):
- L'Impostazione: Fornisci all'IA la planimetria di un cristallo perfetto (la "Cella Unitaria").
- Il Compito: L'IA deve prevedere le proprietà di un piccolo pezzo di quel cristallo staccato (una "Nanoparticella").
- Il Colpo di Scena: L'IA deve capire come cambiano le proprietà man mano che il pezzo diventa più grande o più piccolo.
- Il Risultato: Molte IA hanno centrato la matematica di base, ma hanno fallito nel comprendere la tendenza. Non riuscivano a dire in modo coerente: "Man mano che il pezzo diventa più grande, la densità dovrebbe rimanere la stessa", o "Man mano che diventa più piccolo, la superficie cambia".
Il Test del "Pensare ad Alta Voce" (Chain-of-Thought):
- L'Impostazione: I ricercatori hanno detto all'IA: "Non darmi solo la risposta; spiega il tuo ragionamento passo dopo passo usando la fisica".
- Il Risultato: Questo è stato un'arma a doppio taglio. A volte, costringere l'IA a "pensare" la rendeva più accurata. Ma spesso, la rendeva meno coerente. Fornivano una spiegazione eccellente in un tentativo, e una spiegazione completamente diversa (e sbagliata) nel tentativo successivo, anche per la stessa identica domanda. È come uno studente che risolve perfettamente un problema di matematica se lo scrive, ma si confonde se deve spiegare perché lo ha fatto.
Il Test del "Detective Inverso" (Inverse Retrieval):
- L'Impostazione: Fornisci all'IA un insieme di proprietà (ad esempio, "Questo materiale è pesante, ha un volume specifico ed è molto denso").
- Il Compito: L'IA deve scegliere la planimetzia corretta da una serie di candidati.
- Il Risultato:** Alcune IA sono state sorprendentemente brave in questo, agendo come detective. Tuttavia, altre hanno scelto la planimetria sbagliata anche quando la loro descrizione del materiale era fisicamente plausibile. Avevano trovato un "quasi colpo", che suonava giusto ma che era in realtà il materiale sbagliato.

La Grande Scoperta: L'Accuratezza è una Bugia

La scoperta più importante del documento è che non puoi fidarti di un'IA solo perché ottiene il numero giusto.

Immagina uno studente che sostiene un esame.

Studente A risponde correttamente al 90% delle domande, ma cambia risposta ogni volta che gli fai la stessa domanda.
Studente B risponde correttamente all'85%, ma le sue risposte sono sempre coerenti e seguono un modello logico.

I benchmark attuali guardano solitamente solo il punteggio (90% contro 85%). Questo documento dice: "Aspetta un attimo! Lo Studente A è inaffidabile perché non riesce a mantenere la coerenza nella sua storia".

I ricercatori hanno scoperto che quando testavano l'IA su dati "Out-of-Distribution" (dimensioni che l'IA non aveva ancora visto prima), la capacità dell'IA di rimanere coerente e seguire le leggi della fisica crollava, anche se i suoi numeri di accuratezza grezza sembravano accettabili.

Il Punto Chiave

Il documento conclude che abbiamo bisogno di un nuovo modo per misurare l'IA nella scienza. Non possiamo limitarci a chiedere: "La risposta è giusta?". Dobbiamo chiedere:

"La risposta è coerente?"
"Segue le leggi della fisica?"
"Allucina quando la dimensione dell'oggetto cambia?"

Il benchmark SCALAR è uno strumento progettato per intercettare questi momenti "intelligenti ma folli" prima di affidare a questi modelli di IA la progettazione di materiali reali per cose come batterie o medicinali. È un controllo di realtà per garantire che, quando un'IA parla di atomi, stia parlando davvero di atomi, e non stia solo inventando una storia che suona scientifica.

Riepilogo Tecnico: Benchmark SCALAR per i Modelli di Fondazione per la Scienza dei Materiali

Definizione del Problema

I grandi modelli linguistici (LLM) e i modelli di fondazione vengono applicati sempre più spesso al ragionamento nella scienza dei materiali. Tuttavia, il loro comportamento sotto spostamenti di distribuzione strutturata — nello specifico, cambiamenti nella scala strutturale — rimane scarsamente compreso. Sebbene i modelli possano prevedere accuratamente le proprietà per cristalli bulk perfetti (rappresentati dalle celle unitarie), spesso falliscono quando sono chiamati a ragionare su strutture finite derivate (nanoparticelle) che rompono l'invarianza per traslazione.

Le valutazioni attuali si concentrano tipicamente sull'accuratezza del compito o sulla correttezza della formattazione, raramente valutando la coerenza tra le scale. Questa omissione permette ai modelli di produrre output che possono apparire localmente plausibili ma che violano invarianti fisiche globali (ad esempio, simmetria cristallografica, vincoli di conservazione e relazioni geometriche dipendenti dalla scala). Tali violazioni costituiscono una forma fondata di allucinazione strutturale: previsioni sicure che sono fisicamente errate a causa della violazione degli invarianti sottostanti sotto spostamenti di distribuzione. Manca un set di dati che fornisca rappresentazioni accoppiate dello stesso oggetto attraverso molteplici scale con partizioni out-of-distribution (OOD) controllate per diagnosticare tali fallimenti.

Metodologia: Il Framework SCALAR

Gli autori introducono SCALAR (Structural Consistency And Logic Across Regimes), un benchmark progettato per valutare la generalizzazione della scala geometrica e la sua connessione con l'allucinazione strutturale, la coerenza e il ragionamento.

1. Costruzione del Dataset

Il dataset è derivato da celle unitarie rilassate tramite DFT di materiali cristallini chimicamente diversificati (41 elementi unici, inclusi sistemi ricchi di idrogeno per l'accumulo di energia).

Fase I (Costruzione delle Nanoparticelle): Partendo da una cella unitaria primitiva, viene generata una supercella $20 \times 20 \times 20$ . Le nanoparticelle finite sono create tramite "scultura sferica" (spherical carving), mantenendo gli atomi all'interno di una sfera di raggio $R$ centrata in un'origine. I raggi variano da $10 $a$ 30$ Å, creando strutture che spaziano da pochi atomi a oltre 18.000 atomi (per un totale di $\approx 100.000$ strutture).
Fase II (Campionamento delle Rotazioni): Per mitigare il bias di orientamento, le strutture sono aumentate con rotazioni rigide campionate su $SO(3)$ utilizzando quaternioni unitari. Un campionatore greedy garantisce una spaziatura geodesica minima tra le rotazioni.
Fase III (Partizionamento Consapevole della Split): Il dataset è suddiviso in set di Training, In-Distribution (ID) Test e Out-of-Distribution (OOD) Test.
- Separazione ID/OOD: Le rotazioni nei set ID e OOD sono rigorosamente separate dal set di training mediante margini di esclusione ( $\epsilon_{ID} = 8^\circ$ , $\epsilon_{OOD} = 8^\circ$ ) e parametri di spaziatura specifici.
- Partizionamento dei Raggi: Il training include i raggi $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ . L'ID test usa $\{13, 15, 17, 20, 24, 27\}$ , mentre l'OOD test usa i raggi estremi $\{10, 11, 29, 30\}$ per sondare l'estrapolazione della scala.

2. Task di Valutazione

SCALAR definisce tre task per sondare diversi aspetti della capacità del modello:

Previsione da CIF a Proprietà: I modelli prevedono le proprietà delle nanoparticelle (densità, volume, distanza del vicino più prossimo) partendo da un file di informazioni cristallografiche (CIF).
Ragionamento Chain-of-Thought (CoT): Una variante del Task 1 che richiede passaggi di ragionamento espliciti e basati sulla fisica prima della previsione finale.
Retrieval Inverso: Data una serie di proprietà target, i modelli devono identificare la struttura cristallina corretta da un insieme di candidati.

3. Metriche

Gli output sono valutati tramite metriche strutturate che catturano:

Tasso di Allucinazione: Frequenza di previsioni che violano i vincoli fisici (ad esempio, densità negative) o fallimenti di auto-coerenza.
Coerenza: Deviazione standard delle previsioni numeriche attraverso $N=5$ query indipendenti.
Qualità del Ragionamento: Correlazione di rango di Spearman tra i cambiamenti delle proprietà previste attraverso i raggi e i delta della verità di base (ground-truth).
Accuratezza: Errore Assoluto Medio (MAE) per le previsioni numeriche.
Distanza Fisica e Regret: Per il retrieval inverso, distanza $L_2$ normalizzata tra il vettore delle proprietà target e quello proposto, e la subottimalità del candidato selezionato.

Risultati Chiave

Gli esperimenti su diversi modelli di fondazione (inclusi GPT-5 Mini, o3-mini, Grok, Claude e varianti di LLaMA) rivelano scoperte significative:

Collassi Dipendenti dalla Scala: Gli spostamenti della scala geometrica espongono fallimenti sistematici nel ragionamento fisico e nella coerenza tra le scale che non sono evidenti dalla sola accuratezza aggregata. I tassi di allucinazione e l'incoerenza aumentano drasticamente sotto scale OOD, anche quando l'errore numerico degrada solo moderatamente.
Variabilità Dipendente dal Modello: Le prestazioni dipendono fortemente dal modello. Ad esempio, nel retrieval inverso, Grok 4.1 Fast ha ottenuto un'alta accuratezza top-1 ($0.808$ ID, $0.793$ OOD), mentre altri come Claude 3 Haiku mostrano errori significativi di distanza fisica.
Sensibilità Specifica del Materiale: Gli errori non sono uniformi; sono fortemente dipendenti dalla struttura. Alcuni materiali (ad esempio, $LiCaH_3$ ) mostrano aumenti relativi massicci dell'errore ( $>30\%$ ) o inversioni di segno nei regimi OOD, mentre altri rimangono stabili.
Compromessi del Chain-of-Thought (CoT): Il prompting CoT produce risultati eterogenei. Sebbene spesso riduca gli errori numerici e i tassi di allucinazione, esso spesso destabilizza la coerenza o degrada la qualità del ragionamento per modelli specifici. I guadagni nelle spiegazioni intermedie non si traducono necessariamente in previsioni più stabili o fisicamente coerenti.
Limitazioni del Retrieval Inverso: Un'alta accuratezza nella selezione del candidato corretto non garantisce la fedeltà fisica. Alcuni modelli mantengono una bassa distanza fisica (errori di "quasi-colpito") nonostante una moderata accuratezza di retrieval, mentre altri non si allineano affatto alle proprietà fisiche.
Confronti con i Baseline: Sia gli LLM basati sul testo che le reti neurali a grafo (GNN) native della geometria (ad esempio, SchNet, E(3)NN) mostrano un sostanziale degrado dipendente dalla scala, con le GNN che mostrano aumenti del MAPE da $\approx 100\%$ a $>300\%$ nei regimi OOD. I baseline analitici basati sulle leggi di scala del volume performano bene sulle proprietà intensive ma falliscono su quelle estensive.

Significato e Rivendicazioni

Il paper sostiene che la generalizzazione della scala geometrica non può essere inferita dalla sola accuratezza.

Allucinazione Principled: Gli autori sostengono che gli errori che violano gli invarianti fisici globali sotto spostamenti della scala strutturale costituiscano una forma specifica e fondata di allucinazione che richiede una diagnosi mirata.
Valore Diagnostico: SCALAR fornisce una "lente fondata" per diagnosticare i fallimenti della generalizzazione geometrica che sono invisibili alle metriche di accuratezza media del modello. Evidenzia come le metriche di errore superficiali sottostimino sistematicamente i fallimenti nel ragionamento strutturale e fisico.
Limitazioni degli Attuali Prompt: Lo studio dimosta che il prompting CoT non è un intervento monotono o universalmente benefico; introduce compromessi in cui un miglioramento del ragionamento può avvenire a scapito della coerenza.
Direzioni Future: Inquadrando l'allucinazione come una conseguenza dell'incoerenza geometrica e chimica, SCALAR offre un contesto per diagnosticare e mitigare i fallimenti sotto spostamenti di distribuzione strutturale realistici, aprendo la strada a un deployment più affidabile dei modelli di fondazione nella scienza dei materiali.

Gli autori notano esplicitamente i limiti, tra cui il focus del dataset sull'espansione deterministica della supercella (ignorando disordine/difetti), l'uso di computazioni geometriche classiche invece di osservabili quantistici, e il potenziale di instabilità della formattazione CoT nel complicare l'attribuzione.