Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions

Lo studio rivela che l'affidabilità dei grandi modelli linguistici nelle scienze dei materiali dipende criticamente dal tipo di output richiesto, mostrando come il fine-tuning migliori la coerenza per i compiti simbolici ma non per quelli numerici, e che l'estrazione diretta degli embedding intermedi può superare i limiti delle risposte testuali, pur evidenziando significative variazioni di prestazioni nel tempo che minacciano la riproducibilità scientifica.

Vineeth Venugopal, Soroush Mahjoubi, Elsa Olivetti

Pubblicato 2026-03-03
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un gruppo di 25 chef robot (i modelli di linguaggio o LLM) e di voler vedere quanto sono bravi a cucinare piatti di scienza dei materiali. Alcuni chef sono famosi e costosi (come GPT-4), altri sono open-source e gratuiti (come Llama).

Gli scienziati di questo studio hanno messo alla prova questi chef su quattro compiti diversi:

  1. Indovinare la struttura di un cristallo (es: "Di che forma è questo sale?").
  2. Completare una frase su un materiale (es: "Il titanato di bario ha la proprietà...").
  3. Prevedere un numero preciso come il "bandgap" (un valore energetico).
  4. Prevedere un altro numero come la "costante dielettrica" (quanto un materiale trattiene l'elettricità).

Ecco cosa hanno scoperto, spiegato con parole semplici e metafore:

1. La differenza tra "Parole" e "Numeri"

Il risultato più importante è che il modo in cui rispondono cambia tutto, a seconda se devono usare parole o numeri.

  • Il compito delle Parole (Simbolico):
    Immagina di chiedere a uno chef: "Quali sono gli ingredienti per fare una torta?".

    • Prima della lezione (Base): Lo chef è confuso. Risponde cose a caso, cambia risposta ogni volta che glielo chiedi e spesso sbaglia. È come se non sapesse nemmeno cosa sia una torta.
    • Dopo la lezione (Fine-tuning): Lo chef impara la ricetta. Ora risponde sempre la stessa cosa, corretta e precisa. La confusione sparisce.
    • Conclusione: Per le domande di conoscenza, l'addestramento funziona benissimo: insegna al robot cosa sapere.
  • Il compito dei Numeri (Numerico):
    Ora chiedi: "Quanti grammi di zucchero servono?".

    • Prima della lezione: Lo chef è super sicuro di sé, ma sbaglia. Ti dice "100 grammi" con un tono di voce fermo e deciso, ma in realtà ne servono 200. È un "allucinazione sicura": sembra un esperto, ma non lo è.
    • Dopo la lezione: Lo chef impara a dire "200 grammi", quindi sbaglia meno. MA rimane un po' incerto su come scriverlo (a volte scrive "200", a volte "200.0", a volte "duecento").
    • Conclusione: Per i numeri, l'addestramento migliora la precisione, ma il robot rimane un po' "nervoso" nel modo in cui esprime il numero. Non puoi fidarti ciecamente della sua sicurezza.

2. Il "Collo di Bottiglia" della Testa (LLM Head Bottleneck)

Gli scienziati hanno fatto un esperimento curioso: invece di leggere la risposta scritta dal robot, hanno guardato direttamente i suoi pensieri interni (i dati nascosti prima che il robot scriva la risposta).

  • Per il "Bandgap" (un tipo di energia): Hanno scoperto che i pensieri interni del robot contengono la risposta perfetta, molto meglio di quanto il robot riesca a scriverla. È come se il robot sapesse la risposta esatta, ma quando prova a parlarla, inciampa e la dice male. Chiamano questo il "collo di bottiglia della testa": la mente è brillante, la bocca è goffa.
  • Per la "Costante Dielettrica": Qui la situazione è diversa. I pensieri interni non sono così bravi come la risposta scritta. Sembra che per certi numeri complessi, il robot debba davvero "pensare" mentre scrive, non basta guardare i suoi ricordi interni.

3. Come imparano i robot? (Non capiscono, ma associano)

Quando il robot impara a collegare un materiale a una proprietà (es: "Il PZT è piezoelettrico"), non sta imparando la fisica dietro il fenomeno. Sta imparando a indovinare le associazioni.
È come se un bambino imparasse che "il ghiaccio è freddo" non perché ha studiato la termodinamica, ma perché ha letto mille volte che le parole "ghiaccio" e "freddo" appaiono insieme nei libri. Se chiedi al robot su un materiale rarissimo che non ha mai visto, sbaglia, perché non ha mai visto quelle parole insieme prima.

4. Il problema della "Memoria che cambia" (Stabilità nel tempo)

Infine, hanno guardato i modelli che si usano online (come GPT-4). Hanno notato una cosa spaventosa per la scienza: il modello cambia senza dirlo.
Hanno testato lo stesso modello per 18 mesi. A volte, senza che nessuno lo notasse, l'azienda che lo gestisce lo aggiorna "dietro le quinte".

  • Risultato: La performance può variare dal 9% al 43% in un solo giorno!
  • Metafora: È come se andassi in un ristorante che ti serve la stessa pasta ogni settimana, ma un giorno il cuoco cambia segretamente la ricetta. Se fai una ricerca scientifica basata su quel ristorante, i tuoi risultati di oggi non saranno uguali a quelli di domani. Questo rende difficile fare scienza riproducibile.

In sintesi

Questo studio ci dice che:

  1. I robot sono bravissimi a imparare fatti (parole) se li addestriamo, ma sono insicuri quando devono dare numeri precisi.
  2. A volte i robot sanno la risposta nei loro "pensieri" ma non riescono a scriverla bene.
  3. Non capiscono davvero la scienza, ma sono bravissimi a imitare i pattern che hanno letto.
  4. Se usi i robot online per la scienza, devi stare attento: potrebbero cambiare "cervello" da un giorno all'altro senza avvisarti.

È un promemoria importante: questi strumenti sono potenti, ma vanno usati con cautela, specialmente quando servono numeri precisi o risultati che devono durare nel tempo.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →