Beyond Text and Tables: Vision-Language Model… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Veröffentlicht 2026-06-02

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Aritra Roy, Enrico Grisan, Chiara Gattinoni, John Buckeridge

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich die Welt der Materialwissenschaften als eine riesige, chaotische Bibliothek vor. Im Inneren dieser Bibliothek befinden sich Millionen von Büchern (wissenschaftliche Arbeiten), die die Geheimnisse neuer Materialien enthalten – wie etwa stärkere Legierungen, bessere Batterien oder effizellere Keramiken.

Lange Zeit hatten Computer, die versuchten, diese Bücher zu lesen, einen massiven blinden Fleck. Sie waren exzellent darin, den Text und die Tabellen (die Tabellenkalkulationen) zu lesen, aber sie waren vollkommen analphabetisch, wenn es um Bilder ging. In der Materialwissenschaft sind entscheidende Daten oft in Grafiken und Diagrammen verborgen. Wenn ein Computer die Grafik nicht „sehen“ konnte, gingen diese Daten verloren, eingeschlossen in einem visuellen Format, das die Maschine nicht verstehen konnte.

Dieses Paper stellt ein großes Upgrade für ein Werkzeug namens ComProScanner vor. Denken Sie an ComProScanner als an einen super schnellen, unermüdlichen Bibliotheksroboter. Zuvor konnte dieser Roboter nur die Wörter und Zahlen lesen, die in Sätzen oder Tabellen geschrieben standen. Jetzt haben die Autoren ihm Augen und ein Gehirn gegeben, das in der Lage ist, Bilder zu verstehen.

Hier ist die Funktionsweise des neuen Systems, auf einfache Konzepte heruntergebrochen:

1. Die neuen „Augen“ (Vision-Language Models)

Die Autoren haben den Roboter mit einer speziellen Art von künstlicher Intelligenz ausgestattet, einem Vision-Language Model (VLM).

Die Analogie: Stellen Sie sich vor, Sie versuchen, einem Roboter beizubringen, eine Karte zu lesen. Ein normaler Robot kann Straßennamen lesen (Text), aber er kann Ihnen nicht sagen, wie steil die Hügel sind, nur indem er die geschwungenen Linien auf der Karte betrachtet. Das neue VLM ist wie ein menschlicher Führer, der die geschwungenen Linien betrachten, verstehen kann, dass sie Hügel darstellen, und Ihnen genau sagen kann, wie hoch diese sind.
Die Aufgabe: Dieses neue „Auge“ scannt die wissenschaftlichen Abbildungen, liest die Achsen und Beschriftungen und extrahiert die spezifischen Zahlen, die in den Kurven und Balken verborgen sind.

2. Der smarte Filter (FigureExtractor)

Die Bibliothek hat Millionen von Seiten, und nicht jede Seite enthält eine nützliche Grafik. Jede einzelne Abbildung zu scannen, wäre eine Verschwendung von Zeit und Geld.

Die Analogie: Bevor der Roboter damit beginnt, jedes Bild in der Bibliothek zu lesen, hat er einen smarten Assistenten namens FigureExtractor. Dieser Assistent betrachtet die Bildunterschriften (die Titel unter den Bildern) und Schlüsselwörter. Wenn die Bildunterschrift „Piezoelektrischer Koeffizient“ lautet, markiert der Assistent dies als wichtig. Wenn dort „Biografie des Autors“ steht, ignoriert er es.
Das Ergebnis: Der Roboter verschwendet seine Energie nur für die Grafiken, die tatsächlich relevant sind.

3. Der „Budget“-Test (Modellauswahl)

Die Autoren haben nicht einfach die leistungsstärkste verfügbare KI ausgewählt; sie mussten klug mit den Kosten umgehen. Der Einsatz von KI kostet Geld (basierend darauf, wie viel „Denkarbeit“ geleistet wird).

Die Analogie: Stellen Sie sich vor, Sie stellen vier verschiedene Detektive ein, um einen Fall zu lösen. Sie wollen den besten Detektiv, aber Sie haben auch ein striktes Budget. Sie können nicht den teuersten einstellen, wenn dieser ein Vermögen kostet.
Das Ergebnis: Sie haben vier erstklassige „Detektive“ (KI-Modelle) getestet. Sie fanden heraus, dass Gemini-3-Flash-Preview der Gewinner war. Er war am genauesten beim Lesen der Grafiken und gleichzeitig am günstigsten im Betrieb. Es war, als hätte man einen Detektiv gefunden, der den Fall perfekt löste, aber weniger berechnete als die anderen.

4. Die „unscharfe“ Mathematik (Fehlerschwellenwerte für Werte)

Das Lesen einer Zahl von einer gedruckten Grafik ist nicht immer perfekt. Wenn eine Linie zwischen 10 und 11 liegt, ist es dann 10,4 oder 10,6?

Die Analogie: Wenn Sie einen Menschen fragen: „Wie hoch ist dieses Gebäude?“, sagt er vielleicht: „Etwa 50 Fuß.“ Wenn Sie verlangen, dass er sagt: „Exakt 50,000 Fuß“, wird er vielleicht daneben liegen, weil die Zeichnung nicht präzise genug ist.
Die Innovation: Die Autoren haben eine neue Regel zur Evaluierung hinzugefügt. Anstatt eine perfekte Übereinstimmung zu verlangen (z. B. 10,00 vs. 10,00), erlauben sie einen kleinen „Spielraum“ (z. B. ist 10,00 vs. 10,5 immer noch ein Erfolg). Dies macht den Test realistischer, da es anerkennt, dass das Lesen einer Grafik immer eine gewisse Schätzung beinhaltet.

Die große Errungenschaft

Vor diesem Paper war ComProScanner ein Werkzeug, das nur Text und Tabellen lesen konnte. Jetzt ist es ein vollständig multimodales Werkzeug.

Die Metapher: Es ist, als würde man ein Auto von einem, das nur auf befestigten Straßen fährt (Text/Tabellen), zu einem Allradfahrzeug aufrüsten, das auf Straßen, Feldwegen und felsigen Hügeln fahren kann (Text, Tabellen und Abbildungen).

**Das Fazum:
Die Autoren haben erfolgreich ein System gebaut, das automatisch wissenschaftliche Grafiken finden, lesen und Daten daraus extrahieren kann – und zwar über viele verschiedene Verlage hinweg. Sie haben bewiesen, dass sie durch die Verwendung des richtigen KI-Modells (Gemini-3-Flash-Preview) und das Zulassen kleiner Messfehler unordentliche, visuelle wissenschaftliche Daten in saubere, organisierte digitale Daten umwandeln können, ohne dass ein Mensch diese manuell eingeben muss. Dies ist das erste Mal, dass ein solch vollständiges, automatisiertes System speziell für die Materialwissenschaft entwickelt wurde.

Technisches Resümee: Integration von Vision-Language-Modellen in ComProScanner

Problemstellung
Die Skalierbarkeit und Qualität von Materialdatensätzen sind entscheidend für die datengestützte Materialentdeckung, doch bestehende Datenbanken erfassen nicht den Großteil der experimentell gemessenen Eigenschaften, die in der wissenschaftlichen Literatur zu finden sind. Während computergestützte Repositorien (z. B. Materials Project, JARVIS-DFT) hochdurchsatzbasierte DFT-Daten bereitstellen, bleiben experimentelle Daten für funktionale Keramiken, Legierungen und Polymere in unstrukturierten Formaten über Millionen von Fachartikeln hinweg gefangen. Vorherige automatisierte Extraktionsframeworks, einschließlich des ComProScanner der Autoren, konnten Text- und Tabellendaten erfolgreich verarbeiten, haben jedoch einen erheblichen Teil der quantitativen Eigenschaftsdaten übersehen, die ausschließlich in wissenschaftlichen Abbildungen dargestellt werden. Aktuelle Lösungen zur Bildextraktion stützen sich auf spezialisierte Digitalisierungswerkzeuge oder aufkommende Vision-Language-Modelle (VLMs), aber es existierte kein einheitliches, End-to-End-Framework, um Zusammensetzungs-Eigenschafts-Daten aus Abbildungen innerhalb einer einzigen automatisierten Pipeline zusammen mit Texten und Tabellen zu extrahieren.

Methodik
Die Autoren erweitern das ComProScanner-Framework – ein vollautomatisches End-to-End-Multi-Agenten-System zur automatisierten Datenbankkonstruktion – durch die Integration nativer VLM-basierter Bildextraktionsfähigkeiten. Die technische Implementierung umfasst zwei primäre Mechanismen:

Bildfilterung und Vorverarbeitung: Eine FigureExtractor-Utility wurde eingeführt, um relevante Abbildungen über alle unterstützten Verleger hinweg basierend auf Unterschriften-Keywords (z. B. piezoelektrischer Koeffizient $d_{33}$ , XRD-Muster) zu filtern. Diese Utility übernimmt die JPEG-Konvertierung und wird über verschiedene Publisher-Prozessoren hinweg geteilt, um API-Kosten zu senken.
Graph-Extraktions-Agent: Ein GraphExtractorTool (ein CrewAI BaseTool) wurde entwickelt, um gespeicherte Abbildungen zu verarbeiten. Gegeben eine Digital Object Identifier (DOI), liest dieser Agent alle gespeicherten Abbildungen eines Artikels und übergibt sie einem konfigurierbaren VLM mittels eines strukturierten Extraktions-Prompts. Das VLM gibt Zusammensetzungs-Eigenschafts-Wertepaare im Standard-ComProScanner-JSON-Schema zurück.
Bildbewusstes Fallback-Verfahren: Der DataExtractionFlow wurde aktualisiert, um einen bildbewussten Fallback-Mechanismus zu enthalten. Falls die initiale textbasierte Retrieval-Augmented Generation (RAG) keine relevanten Daten identifizieren kann, prüft der Flow die gespeicherten DOI-Abbildungen via VLM. Falls relevante grafische Belege gefunden werden, wird die Entscheidung auf „ja“ hochgestuft, wodurch verhindert wird, dass Artikel mit rein grafischen Daten verworfen werden.
Modellauswahlkriterien: Vier VLMs wurden für die Evaluierung ausgewählt, basierend auf dem LMArena Diagramm Leaderboard (das die menschliche Präferenz beim Verständnis von Diagrammen rankt) und einem strengen Kostenkriterium von weniger als 1,50 $ pro Million Input-Token. Die ausgewählten Modelle sind Gemini-3-Flash-Preview, Gemini-2.5-Pro, GPT-5-Chat-Latest und GPT-5.1.
Evaluierungsrahmen: Das System wurde anhand von 50 zufällig ausgewählten Artikeln über piezoelektrische Keramiken aus einem etablierten $d_{33}$ -Testkorpus getestet. Die Evaluierung konzentrierte sich ausschließlich auf das Feld composition_property_values. Um die inhärente Unsicherheit beim Ablesen von Werten aus Diagrammen zu adressen, führten die Autoren einen parameterbasierten Bereichs-Fehler-Schwellenwert ein (z. B. $\pm 0,5, \pm 1, \pm 2$ pC/N), anstatt sich rein auf exakte Wertübereinstimmungen zu verlassen.

Zentrale Beiträge

Erster multimodaler End-to-End-Pipeline: Die Arbeit etabliert das VLM-integrierte ComProScanner als die erste materialspezifische, vollautomatisierte Plattform, die in der Lage ist, strukturierte Zusammensetzungs-Eigenschafts-Daten aus Texten, Tabellen und Abbildungen innerhalb einer einzigen, einheitlichen Pipeline zu extrahieren.
Neuartige Utility und Agent-Tools: Die Einführung der FigureExtractor-Utility zur kepsionsbasierten Filterung und des GraphExtractorTool-Agenten für die VLM-gestützte Datengewinnung.
Verbesserte Evaluierungsmetriken: Die Aufnahme eines bereichsbasierten Fehler-Schwellenwert-Parameters ermöglicht eine physikalisch sinnvollere Bewertung numerischer Eigenschaftswerte, die aus Abbildungen extrahiert wurden, im Vergleich zu einer strikten exakten Übereinstimmung.
Kosteneffizientes Model-Benchmarking: Ein rigoroser Vergleich von vier VLMs zeigt, dass Hochleistungsmodelle basierend auf einer Balance zwischen Genauigkeit und Input-Token-Kosten ausgewählt werden können.

Ergebnisse
Das Benchmarking am 50-Artikel-Subset lieferte folgende Ergebnisse:

Leistung: Gemini-3-Flash-Preview erzielte die höchste Leistung über alle Dimensionen hinweg, mit einer Zusammensetzungsgenauigkeit von 0,97 und einem normalisierten F1-Score von 0,97. Es demonstrierte zudem die höchste Präzision (0,96) und Recall (0,95).
Vergleichende Leistung: Gemini-2.5-Pro schnitt respektabel mit einer Zusammensetzungsgenauigkeit von 0,86 und einem normalisierten F1 von 0,84 ab, zeigte jedoch einen niedrigeren Recall im Verhältnis zur Präzision, was auf eine konservativere Extraktionsstrategie hindeutet. GPT-5-Chat-Latest und GPT-5.1 performten vergleichbar zueinander, blieben jedoch signifikant hinter den Gemini-Modellen zurück, mit Zusammensetzungsgenauigkeiten von 0,78 und normalisierten F1-Scores im Bereich von 0,71–0,72.
Kosteneffizienz: Gemini-3-Flash-Preview wurde als das kosteneffizienteste Modell identifiziert, da es die höchste Leistung bietet und gleichzeitig deutlich geringere Input-Kosten pro Million Token als seine Konkurrenten beansprucht.
Datengewinnung: Von den 50 ausgewählten Artikeln lieferten 48 nach Extraktion und Bereinigung auswertbare Daten. Das bildbewusste Fallback-Verfahren verhinderte erfolgreich das stille Verwerfen von Artikeln, die ausschließlich grafische Daten enthalten.

Bedeutung
Die Arbeit behauptet, dass diese Beiträge einen neuen Standard für die Materialinformatik setzen, indem sie die Lücke zwischen veröffentlichter Literatur und maschinenlesbaren Datensätzen für experimentelle Daten schließen. Durch den Nachweis, dass kosteneffiziente VLMs für den großflächigen Einsatz ausreichend fähig sind, argumentieren die Autoren, dass die systematische Lücke in bestehenden Literaturextraktions-Frameworks – insbesondere die Unfähigkeit zur Verarbeitung grafischer Daten – geschlossen wurde. Die resultierende Plattform ermöglicht die automatisierte Gewinnung von Zusammensetzungs-Eigenschafts-Paaren aus wissenschaftlichen Charts und Plots über alle unterstützten Verleger hinweg, was die Erstellung umfassender, multimodaler Materialdatenbanken ohne menschliches Eingreifen erleichtert. Die Arbeit schließt mit der Feststellung, dass die Integration von VLMs in die ComProScanner-Pipeline einen entscheidenden Schritt hin zu einer vollautomatisierten, skalierbaren Materialdatenextraktion darstellt.

Beyond Text and Tables: Vision-Language Model Integration in ComProScanner for Extracting Materials Data from Scientific Figures with High Accuracy

1. Die neuen „Augen“ (Vision-Language Models)

2. Der smarte Filter (FigureExtractor)

3. Der „Budget“-Test (Modellauswahl)

4. Die „unscharfe“ Mathematik (Fehlerschwellenwerte für Werte)

Die große Errungenschaft

Mehr davon