MaterialFigBENCH: benchmark dataset with figures for evaluating college-level materials science problem-solving abilities of multimodal large language models

Dit paper introduceert MaterialFigBench, een benchmarkdataset met 137 universitaire materiaalkundevragen die figuren vereisen, waarmee wordt aangetoond dat huidige multimodale LLM's moeite hebben met visuele interpretatie en kwantitatieve analyse ondanks hun toegang tot domeinkennis.

Oorspronkelijke auteurs: Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato

Gepubliceerd 2026-03-13
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een groep zeer intelligente, maar soms wat verwaande studenten hebt. Deze studenten hebben de hele wereldbibliotheke uit hun hoofd geleerd. Ze kunnen over alles praten, van de geschiedenis van de Romeinen tot de chemie van een bakje koffie. Maar er is een probleem: als je ze een foto van een grafiek of een diagram geeft, kijken ze er vaak niet echt naar. In plaats daarvan gissen ze op basis van wat ze al in hun hoofd hebben.

Dit is precies wat de onderzoekers van MaterialFigBENCH hebben ontdekt, en hoe ze dit hebben getest. Hier is het verhaal, vertaald naar alledaags Nederlands:

1. De Uitdaging: "Kijk niet alleen, maar zie ook"

In de wereld van materialenwetenschap (het vakgebied dat onderzoekt waarom staal hard is of waarom siliconen stroom geleidt), zijn grafieken en diagrammen de heilige graal. Een "fase-diagram" is bijvoorbeeld een soort landkaart voor smeltende metalen. Als je die kaart niet kunt lezen, kun je geen goed staal maken.

De onderzoekers wilden weten: Kunnen deze super-intelligente AI's (zoals ChatGPT) echt naar zo'n kaart kijken en de weg vinden, of lezen ze gewoon de antwoorden uit hun geheugen?

Om dit te testen, hebben ze MaterialFigBENCH gemaakt. Dit is een soort "proefwerk" met 137 vragen. Maar dit is geen gewoon proefwerk. Het is een valstrik.

2. De Valstrik: Het "Valse Kaartspel"

Stel je voor dat je een student een vraag stelt over de weg naar het station.

  • Normale vraag: "Hoe kom ik naar het station?" (De student kan het antwoord uit zijn hoofd weten).
  • De MaterialFigBENCH-vraag: "Kijk naar deze nieuwe, valse kaart die ik net heb getekend. Waar is het station?"

De onderzoekers hebben de originele diagrammen uit leerboeken opzettelijk aangepast.

  • Ze hebben de namen van metalen veranderd (in plaats van "Koper-Zilver" zeggen ze nu "Metaal-A en Metaal-B").
  • Ze hebben de lijntjes iets verschoven.
  • Ze hebben de getallen net anders gemaakt.

Het doel: Als de AI echt naar de foto kijkt, moet het de nieuwe waarden kunnen aflezen. Als de AI alleen maar "weet" dat Koper-Zilver bij 800 graden smelt, zal het falen, want op de valse kaart is dat anders.

3. Het Resultaat: De "Gokkers" vs. De "Lezers"

Toen ze de AI's op dit proefwerk lieten werken, gebeurde er iets verrassends:

  • De "Gokkers" (Memorizers): Veel AI's gaven het juiste antwoord, maar zonder naar de foto te kijken. Ze dachten: "Ah, dit lijkt op een Fe-C (ijzer-koolstof) diagram. Ik weet uit mijn training dat koolstof daar 0,76% is." Ze gaven het juiste antwoord, maar ze hadden de foto niet nodig gehad. Ze hadden de kaart kunnen weglaten en het antwoord was hetzelfde geweest.
  • De "Lezers" (Visualizers): Als de AI's echt moesten meten op de foto (bijvoorbeeld: "Hoe ver is dit punt van de as?"), faalden ze vaak. Ze konden de lijntjes niet goed aflezen, maakten rekenfouten, of gaven antwoorden met te weinig cijfers (bijvoorbeeld "58" in plaats van "57,915").

4. De Analogie: De Reiziger zonder Kompas

Stel je voor dat je een reiziger bent die een nieuwe stad moet verkennen.

  • De huidige AI's zijn als reizigers die de stad al uit hun hoofd kennen. Als je ze vraagt: "Kijk naar deze nieuwe kaart, waar is het museum?", zeggen ze: "Het museum is op de hoek van de straat!" omdat ze dat uit hun hoofd weten. Ze kijken niet eens naar de kaart die je hun geeft.
  • Het probleem: Als je ze een kaart geeft van een nieuwe, fictieve stad, raken ze in de war. Ze kunnen de symbolen op de kaart niet goed interpreteren. Ze weten niet hoe ze een afstand moeten meten met een liniaal op het papier.

5. Wat betekent dit voor de toekomst?

De onderzoekers concluderen dat deze AI's nog niet echt "zien". Ze zijn briljante tekstschrijvers die veel feiten uit hun hoofd hebben, maar ze zijn nog geen goede wetenschappers die meten en observeren.

  • Ze zijn te snel: Ze geven vaak een antwoord voordat ze goed hebben gekeken.
  • Ze zijn onnauwkeurig: Als ze wel kijken, maken ze foutjes in het aflezen van getallen (zoals het verschil tussen 0,02 en 0,022).
  • Ze zijn te afhankelijk van wat ze al weten: Ze vertrouwen te veel op hun "training" en te weinig op de feitelijke data voor hen.

Conclusie: De Leraar die de Oefeningen aanpast

De onderzoekers zeggen eigenlijk: "We moeten de AI's niet alleen laten oefenen met vragen die ze al kennen. We moeten ze dwingen om echt naar de nieuwe informatie te kijken."

MaterialFigBENCH is dus een nieuwe, strengere leraar. Hij zegt: "Ik ga de cijfers op je examen veranderen. Als je het antwoord uit je hoofd kent, ga je zakken. Je moet echt naar de grafiek kijken en rekenen."

Dit helpt ontwikkelaars om de volgende generatie AI's te bouwen die niet alleen slimme praters zijn, maar ook echte visualiseerders die betrouwbaar kunnen helpen bij het ontwerpen van nieuwe materialen, van batterijen tot ruimtevaartuigen. Tot die tijd moeten we echter wel goed blijven kijken of de AI echt naar de foto kijkt, of dat hij gewoon raadt!

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →