Beyond Text and Tables: Vision-Language Model Integration in… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Gepubliceerd 2026-06-02

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je de wereld van materiaalkunde voor als een enorme, chaotische bibliotheek. Binnen deze bibliotheek bevinden zich miljoenen boeken (wetenschappelijke artikelen) die de geheimen bevatten van nieuwe materialen—zoals sterkere legeringen, betere batterijen of efficiëntere keramiek.

Lange tijd hadden computers die deze boeken probeerden te lezen een grote blinde vlek. Ze waren uitstekend in het lezen van de tekst en de tabellen (de spreadsheets), maar ze waren volledig analfabeet als het aankwam op de afbeeldingen. In de materiaalkunde zit cruciale data vaak verborgen in grafieken en diagrammen. Als een computer die grafiek niet kon "zien", ging die data verloren, opgesloten in een visueel formaat dat de machine niet kon begrijpen.

Dit artikel introduceert een belangrijke upgrade voor een tool genaamd ComProScanner. Zie ComProScanner als een supersnelle, onvermoeibare bibliothecaris-robot. Voorheen kon deze robot alleen de woorden en cijfers lezen die in zinnen of tabellen stonden geschreven. Nu hebben de auteurs hem ogen en een brein gegeven dat in staat is om afbeeldingen te begrijpen.

Hier is hoe het nieuwe systeem werkt, onderverdeeld in eenvoudige concepten:

1. De Nieuwe "Ogen" (Vision-Language Models)

De auteurs hebben de robot uitgerust met een speciaal type kunstmatige intelligentie genaamd een Vision-Language Model (VLM).

De Analogie: Stel je voor dat je een robot probeert te leren een kaart te lezen. Een normale robot kan straatnamen lezen (tekst), maar hij kan je niet vertellen hoe steil de heuvels zijn door alleen naar de kronkelige lijnen op de kaart te kijken. De nieuwe VLM is als een menselijke gids die naar de kronkelige lijnen kan kijken, begrijpt dat deze heuvels vertegenwoordigen, en je precies kan vertellen hoe hoog ze zijn.
De Taak: Dit nieuwe "oog" scant de wetenschappelijke figuren, leest de assen en labels, en extraheert de specifieke getallen die verborgen zitten in de curves en balken.

2. De Slimme Filter (FigureExtractor)

De bibliotheek heeft miljoenen pagina's, en niet elke pagina bevat een nuttige grafiek. Het scannen van elke afbeelding zou een verspilling van tijd en geld zijn.

De Analogie: Voordat de robot elke afbeelding in de bibliotheek begint te lezen, heeft hij een slimme assistent genaamd de FigureExtractor. Deze assistent kijkt naar de bijschriften (de titels onder de plaatjes) en trefwoorden. Als het bijschrift "Piezoelektrische Coëfficiënt" zegt, markeert de assistent dit als belangrijk. Als er staat "Biografie van de auteur", negeert hij het.
Het Resultaat: De robot verspilt zijn energie alleen aan de grafieken die er daadwerkelijk toe doen.

3. De "Budget" Test (Model Selection)

De auteurs hebben niet zomaar de krachtigste AI die beschikbaar is gekozen; ze moesten slim zijn over de kosten. Het gebruik van AI kost geld (gebaseerd op hoeveel "denkwerk" het verricht).

De Analogie: Stel je voor dat je vier verschillende detectives inhuurt om een zaak op te lossen. Je wilt de beste detective, maar je hebt ook een strikt budget. Je kunt niet de duurste inhuren als dat een fortuin kost.
Het Resultfeit: Ze hebben vier top-tier "detectives" (AI-modellen) getest. Ze ontdekten dat Gemini-3-Flash-Preview de winnaar was. Het was het meest nauwkeurig in het lezen van de grafieken én het was de goedkoopste om te draaien. Het was alsof je een detective vond die de zaak perfect oploste, maar minder in rekening bracht dan de anderen.

4. De "Vage" Wiskunde (Value Error Thresholds)

Het aflezen van een getal van een gedrukte grafiek is niet altijd perfect. Als een lijn tussen de 10 en 11 ligt, is het dan 10,4 of 10,6?

De Analogie: Als je een mens vraagt: "Hoe hoog is dat gebouw?", kan diegene zeggen: "Ongeveer 50 voet." Als je eist dat hij zegt: "Precies 50,000 voet", kan hij het fout hebben omdat de tekening niet nauwkeurig genoeg is.
De Innovatie: De auteurs hebben een nieuwe regel toegevoegd aan de evaluatie. In plaats van een perfecte match te eisen (bijv. 10,00 versus 10,00), staan ze een kleine "speling" toe (bijv. 10,00 versus 10,5 is nog steeds een voldoende). Dit maakt de test realistischer, door te erkennen dat het aflezen van een grafiek altijd een klein beetje schatten met zich meebrengt.

De Grote Prestatie

Vóór dit artikel was ComProScanner een tool die alleen tekst en tabellen kon lezen. Nu is het een multimodale tool.

De Metafoor: Het is alsof je een auto upgradet van een voertuig dat alleen op geasfalteerde wegen rijdt (tekst/tabellen) naar een all-terrain voertuig dat over de weg, onverharde paden en rotsachtige heuvels kan rijden (tekst, tabellen, én figuren).

De Kernboodschap:
De auteurs hebben succesvol een systeem gebouwd dat automatisch grafieken kan vinden, lezen en data kan extraheren uit wetenschappelijke grafieken van veel verschillende uitgevers. Ze hebben bewezen dat door de juiste AI-modellen (Gemini-3-Flash-Preview) te gebruiken en ruimte te laten voor kleine meetfouten, ze rommelige, visuele wetenschappelijke data kunnen omzetten in schone, georganiseerde digitale data zonder dat een mens dit handmatig hoeft in te typen. Dit is de eerste keer dat een dergelijk volledig geautomatiseerd systeem specifiek voor materiaalkunde is gebouwd.

Technische Samenvatting: Integratie van Vision-Language Modellen in ComProScanner

Probleemstelling
De schaal en kwaliteit van materiaaldatasets zijn cruciaal voor datagestuurde ontdekking van materialen, maar bestaande databases slagen er niet in de overgrote meerderheid van de experimenteel gemeten eigenschappen die in de wetenschappelijke literatuur worden gevonden, te vatten. Terwijl computationele repositories (bijv. Materials Project, JARVIS-DFT) hoog-doorvoer DFT-data bieden, blijft experimentele data voor functionele keramiek, legeringen en polymeren gevangen in ongestructureerde formaten binnen miljoenen wetenschappelijke artikelen. Eerdere geautomatiseerde extractie-frameworks, inclusief die van de auteurs zelf (ComProScanner), hebben tekstuele en tabelgegevens succesvol verwerkt, maar hebben een aanzienlijk deel van de kwantitatieve eigenschapsdata die exclusief in wetenschappelijke figuren worden gerapporteerd, over het hoofd gezien. Huidige oplossingen voor figuur-extractie vertrouwen op gespecialiseerde digitaliseringstools of opkomende vision-language modellen (VLM's), maar er bestond geen verenigd, end-to-end framework om compositie-eigenschapsdata uit figuren te extraheren binnen één enkele geautomatiseerde pijplijn naast tekst en tabellen.

Methodologie
De auteurs breiden het ComProScanner-framework uit, een volledig end-to-end multi-agent systeem voor geautomatiseerde databaseconstructie, door de integratie van native VLM-gebaseerde figuur-extractiecapaciteiten. De technische implementatie omvat twee primaire mechanismen:

Figuurfiltratie en Preprocessing: Een FigureExtractor-utility werd geïntroduceerd om relevante figuren te filteren over alle ondersteunde uitgevers op basis van bijschrift-trefwoorden (bijv. piëzo-elektrische coëfficiënt $d_{33}$ , XRD-patronen). Deze utility handelt JPEG-conversie af en wordt gedeeld tussen publisher-processors om API-kosten te verlagen.
Graph Extraction Agent: Een GraphExtractorTool (een CrewAI BaseTool) is ontwikkeld om opgeslagen figuren te verwerken. Gegeven een Digital Object Identifier (DOI), leest deze agent alle opgeslagen figuren voor een artikel en stuurt ze naar een configureerbare VLM met behulp van een gestructureerde extractie-prompt. De VLM retourneert compositie-eigenschaps-waarde paren in het standaard ComProScanner JSON-schema.
Beeldbewuste Fallback: De DataExtractionFlow is bijgewerkt om een beeldbewuste fallback-mechanisme te bevatten. Als de initiële tekstgebaseerde Retrieval-Augmented Generation (RAG) faalt in het identificeren van relevante data, controleert de flow de opgeslagen DOI-figuren via de VLM. Indien relevant grafisch bewijs wordt gevonden, wordt de beslissing geüpgraded naar "ja", waardoor voorkomt dat artikelen met enkel grafische data worden weggegooid.
Modelselectie-criteria: Vier VLM's werden geselecteerd voor evaluatie op basis van de LMArena Diagram leaderboard (die menselijke voorkeur bij diagram-begrip rangschikt) en een strikt kosten-criterium van minder dan $1,50 per miljoen input-tokens. De geselecteerde modellen waren Gemini-3-Flash-Preview, Gemini-2.5-Pro, GPT-5-Chat-Latest en GPT-5.1.
Evaluatieframework: Het systeem werd getest op 50 willekeurig geselecteerde artikelen over piëzo-elektrische keramiek uit een gevestigde $d_{33}$ testcorpus. De evaluatie richtte zich uitsluitend op het veld composition_property_values. Om de inherente onzekerheid bij het aflezen van waarden uit grafieken aan te pakken, introduceerden de auteurs een parameter voor een bereik-gebaseerde foutmarge (bijv. $\pm 0,5, \pm 1, \pm 2$ pC/N) in plaats van enkel te vertrouwen op exacte waarde-overeenkomst.

Kernbijdragen

Eerste Multimodale End-to-End Pijplijn: Het werk vestigt de VLM-geïntegreerde ComProScanner als het eerste materiaalspecifieke, volledig geautomatiseerde platform dat in staat is om gestructureerde compositie-eigenschapsdata te extraheren uit tekst, tabellen en figuren binnen één enkele verenigde pijplijn.
Nieuwe Utility en Agent Tools: De introductie van de FigureExtractor-utility voor caption-gebaseerde filtratie en de GraphExtractorTool-agent voor VLM-gestuurde data-recovery.
Verbeterde Evaluatiemetrieken: De inclusie van een bereik-gebaseerde foutmarge-parameter, wat een fysisch meer betekenisvolle beoordeling biedt van numerieke eigenschapswaarden geëxtraheerd uit figuren vergeleken met strikte exacte overeenkomst.
Kostenefficiënte Model Benchmarking: Een rigoureuze vergelijking van vier VLM's die aantoont dat hoogwaardige modellen kunnen worden geselecteerd op basis van een balans tussen nauwkeurigheid en input-tokenkosten.

Resultaten
Benchmarking op de subset van 50 artikelen leverde de volgende bevindingen op:

Prestaties: Gemini-3-Flash-Preview behaalde de hoogste prestaties over alle dimensies, met een compositie-nauwkeurigheid van 0,97 en een genormaliseerde F1-score van 0,97. Het vertoonde ook de hoogste precisie (0,96) en recall (0,95).
Vergelijkbare Prestaties: Gemini-2.5-Pro presteerde respectabel met een compositie-nauwkeurigheid van 0,86 en een genormaliseerde F1 van 0,84, hoewel het een lagere recall vertoonde relatief aan de precisie, wat duidt op een conservatievere extractiestrategie. GPT-5-Chat-Latest en GPT-5.1 presteerden vergelijkbaar met elkaar maar bleven aanzienlijk achter bij de Gemini-modellen, met compositie-nauwkeurigheden van 0,78 en genormaliseerde F1-scores rond de 0,71–0,72.
Kostenefficiëntie: Gemini-3-Flash-Preview werd geïdentificeerd als het meest kosteneffectieve model, waarbij het de hoogste prestaties bood terwijl het een aanzienlijk lagere inputkosten per miljoen tokens had dan zijn concurrenten.
Data Recovery: Van de 50 geselecteerde artikelen leverden 48 evalueerbare data op na extractie en opschoning. De beeldbewuste fallback voorkwam succesvol het stilzwijgend weggooien van artikelen die enkel grafische data bevatten.

Significantie
Het artikel stelt dat deze bijdragen een nieuwe standaard zetten voor materiaalinformatica door de kloof te overbruggen tussen gepubliceerde literatuur en machine-klaar datasets voor experimentele data. Door aan te tonen dat kosteneffectieve VLM's voldoende capabel zijn voor grootschalige implementatie, betogen de auteurs dat de systematische kloof in bestaande literatuur-mining frameworks—specifiek het onvermogen om grafische data te verwerken—is opgelost. Het resulterende platform maakt de geautomatiseerde recovery van compositie-eigenschaps-paren uit wetenschappelijke grafieken en plots mogelijk over alle ondersteunde uitgevers, wat de creatie van uitgebreide, multimodale materiaaldatabases zonder menselijke tussenkomst faciliteert. Het werk concludeert dat de integratie van VLM's in de ComProScanner-pijplijn een beslissende stap vormt naar volledig geautomatiseerde, schaalbare materiaaldata-extractie.

Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy