Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions

Dit onderzoek toont aan dat de betrouwbaarheid van grote taalmodellen in de materiaalkunde sterk afhangt van de outputmodus, waarbij fijne afstemming symbolische taken verbetert maar numerieke voorspellingen inconsistent laat, en dat het extraheren van embeddings uit tussenlagen vaak beter presteert dan tekstuele output, terwijl bovendien aanzienlijke prestatieschommelingen over tijd de reproduceerbaarheid voor wetenschappelijke toepassingen in gevaar brengen.

Vineeth Venugopal, Soroush Mahjoubi, Elsa Olivetti

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep van 25 zeer intelligente, maar soms wat verwarde studenten hebt. Ze hebben allemaal de boeken van de hele wereld gelezen (de "training data"), maar ze zijn nog nooit specifiek opgeleid voor een examen in materiaalwetenschap (zoals het voorspellen van de sterkte van een nieuw metaal of de kleur van een kristal).

Deze studie van MIT onderzoekt hoe goed deze "AI-studenten" (Large Language Models of LLM's) presteren als we hen vragen om materialen te analyseren. Ze ontdekten een paar verrassende dingen, die we kunnen uitleggen met een paar simpele metaforen.

Hier is wat ze vonden, vertaald naar alledaags Nederlands:

1. De twee soorten vragen: Woorden vs. Getallen

De onderzoekers stelden twee soorten vragen aan de AI:

  • Woord-vragen (Symbolisch): "Is dit materiaal een kristal?" of "Welke eigenschappen heeft dit?"
  • Getal-vragen (Numeriek): "Wat is de exacte spanning van dit materiaal?" of "Hoe groot is de bandgap?"

Het grote verschil:

  • Bij woord-vragen waren de AI's in het begin heel onzeker. Ze gaven willekeurige antwoorden, alsof ze gissen. Maar als je ze even een beetje "opleiding" gaf (fine-tuning), werden ze plotseling heel zeker en correct. Het was alsof ze de woordenboekdefinitie niet kenden, maar dat snel leerden.
  • Bij getal-vragen was het juist raar. De AI's gaven in het begin al heel zelfverzekerd een specifiek getal, maar dat getal was vaak volkomen fout. Ze "hallucineerden" met een glimlach. Zelfs na de opleiding werden ze beter in het getal, maar ze bleven soms net zo zelfverzekerd over hun fouten.
    • De les: Als een AI een woord vraagt en twijfelt (veel variatie in antwoord), is dat een goed teken dat het niet zeker is. Maar als een AI een getal vraagt en geeft een vast getal, kan dat een vals gevoel van zekerheid zijn.

2. De "Stiekeme Wijsheid" (De LLM-kop bottleneck)

Dit is misschien wel het coolste deel. De onderzoekers keken niet alleen naar wat de AI zei (de tekst die uit de computer kwam), maar ook naar wat er in de computer gebeurde terwijl het dacht.

Stel je de AI voor als een chef-kok die een gerecht moet beschrijven.

  • De interne lagen van de AI (de chef die in de keuken staat) weten precies hoe het gerecht smaakt en hoe het eruit ziet. Ze hebben de juiste informatie.
  • Maar de tekst-uitvoer (de kok die naar de klant praat) is niet goed in het vertalen van die kennis naar woorden of getallen.

Bij het voorspellen van de "bandgap" (een eigenschap van materialen) bleek dat de interne kennis van de AI veel nauwkeuriger was dan wat ze eruit schreef. Het is alsof de chef de perfecte saus proeft, maar de klant vertelt: "Het is een beetje zout," terwijl de saus perfect is. De onderzoekers noemen dit de "LLM-kop bottleneck": de uitlaatklep is te smal voor de kennis die erin zit.

3. Leren door "Kletsen" in plaats van "Begrijpen"

Hoe leren deze AI's eigenlijk?
Bij het invullen van kennisgrafieken (zoals: "Dit materiaal heeft eigenschap X") bleek dat de AI's niet echt begrepen waarom iets zo was. Ze leerden puur op basis van hoe vaak ze iets samen zagen.

  • Als het woord "PZT" (een materiaal) in de training vaak samen voorkwam met "piezo-elektrisch", leerde de AI dat ze bij elkaar horen.
  • Maar als ze een zeldzame combinatie zagen die ze nooit eerder hadden gezien, faalden ze.
  • De metafoor: Het is alsof iemand die nooit een auto heeft gereden, wel weet dat "auto" en "brandstof" bij elkaar horen omdat ze dat vaak samen in kranten zagen. Maar als je vraagt hoe je de motor start, heeft die persoon geen idee, want ze hebben het nooit echt gedaan.

4. De "Chameleons" van de AI (Onbetrouwbaarheid)

Tot slot keken ze naar de AI's die je via een website gebruikt (zoals GPT van OpenAI), in plaats van die je zelf op je computer kunt draaien.
Ze merkten op dat deze AI's over een periode van 18 maanden veranderden.

  • Vandaag gaf een AI een antwoord, en over een maand gaf dezelfde AI een ander antwoord op exact dezelfde vraag, zonder dat iemand iets had aangepast.
  • Soms veranderde de prestatie met wel 43%!
  • De les: Voor wetenschappers is dit een nachtmerrie. Als je een experiment vandaag doet met een AI, en over een jaar herhaalt je het, kun je een ander resultaat krijgen. Het is alsof je een meetinstrument gebruikt dat elke dag een beetje anders is afgesteld.

Samenvatting in één zin

Deze studie leert ons dat AI's in de materiaalkunde soms slimme antwoorden geven, maar dat we moeten oppassen: ze kunnen zelfverzekerd liegen over getallen, ze weten meer dan ze zeggen, en als je ze via een website gebruikt, kunnen ze morgen weer een andere persoonlijkheid hebben dan vandaag.

Voor wetenschappers betekent dit: gebruik AI met een korreltje zout, check de resultaten altijd, en wees voorzichtig met het vertrouwen op "zekerheid" als het om cijfers gaat.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →