MaterialFigBENCH: benchmark dataset with figures for evaluating college-level materials science problem-solving abilities of multimodal large language models

Das Paper stellt MaterialFigBench vor, einen Benchmark-Datensatz mit 137 university-level Problemen aus dem Bereich Werkstoffwissenschaft, der multimodale Large Language Models anhand ihrer Fähigkeit zur visuellen Interpretation von Fachgrafiken wie Phasendiagrammen und Spannungs-Dehnungs-Kurven evaluiert und dabei zeigt, dass aktuelle Modelle trotz verbesserter Gesamtleistung weiterhin Schwierigkeiten beim echten visuellen Verständnis und der quantitativen Analyse haben.

Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

MaterialFigBENCH: Ein neuer Test für KI, der Bilder statt Text liebt

Stellen Sie sich vor, Sie haben einen sehr schlauen Schüler, der alles auswendig gelernt hat. Er kann über Physik, Chemie und Technik reden wie ein Professor. Aber wenn Sie ihm ein neues Diagramm zeigen und sagen: „Lies die Werte hier ab und berechne die Antwort", stolpert er oft. Er versucht stattdessen, die Antwort aus seinem Gedächtnis zu erraten, weil er denkt, er müsse das Diagramm gar nicht wirklich ansehen.

Genau dieses Problem haben die Forscher mit ihrem neuen Projekt MaterialFigBENCH untersucht. Hier ist die Erklärung, wie es funktioniert, einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Bücherwurm", der nicht sieht

Bisher wurden KI-Modelle (wie ChatGPT) hauptsächlich mit Text getestet. Man gab ihnen Fragen aus einem Lehrbuch, und sie antworteten. Das war wie ein Diktat: Der Schüler hatte den Text vor sich und konnte ihn nachschlagen oder auswendig wissen.

Aber in der echten Welt der Materialwissenschaft (z. B. wenn man neue Metalle entwickelt) reicht Text nicht. Man muss Bilder lesen:

  • Phasendiagramme: Das sind wie Landkarten für Metalle, die zeigen, wann sie schmelzen oder fest werden.
  • Spannungs-Dehnungs-Kurven: Das sind wie Fitness-Tracker für Materialien, die zeigen, wie viel Kraft sie aushalten, bevor sie reißen.
  • Mikrostrukturen: Das sind winzige Fotos von Materialien unter dem Mikroskop.

Die Forscher wollten wissen: Kann die KI wirklich diese Bilder lesen und verstehen, oder schaut sie nur auf die Wand und rät?

2. Die Lösung: Ein neuer, fairer Test

Um das herauszufinden, haben die Forscher einen neuen Test entwickelt, den sie MaterialFigBENCH nennen.

  • Der Trick: Sie nahmen echte Aufgaben aus Universitäts-Lehrbüchern und machten sie „unlesbar" für das Gedächtnis der KI.
    • Beispiel: In einem echten Buch steht: „Das Kupfer-Silber-Diagramm zeigt...". Die Forscher änderten das in: „Das Diagramm für die hypothetischen Metalle MA und MB zeigt...".
    • Warum? Wenn die KI nicht weiß, was „MA" und „MB" sind, kann sie nicht auswendig lernen. Sie muss das Bild wirklich ansehen, um die Antwort zu finden.
  • Die Aufgaben: Es gibt 137 Fragen. Die KI muss Zahlen aus den Bildern ablesen, Linien messen und dann rechnen. Es gibt keine Multiple-Choice-Optionen, die man einfach raten kann.

3. Das Ergebnis: Die KI ist noch nicht ganz schlau

Die Forscher haben verschiedene Versionen der KI getestet (von älteren bis zu den neuesten Modellen). Das Ergebnis war eine Mischung aus Erleichterung und Enttäuschung:

  • Der „Gedächtnis-Trick": Bei vielen Fragen gab die KI die richtige Antwort – aber nicht, weil sie das Bild gelesen hatte. Sie hatte einfach gelernt, dass bei Eisen-Kohlenstoff-Diagrammen bestimmte Werte immer gleich sind. Sie hat das Bild ignoriert und ihre innere Datenbank genutzt. Das ist wie ein Schüler, der die Lösung einer Matheaufgabe auswendig weiß, aber nicht versteht, wie man sie rechnet.
  • Die Schwäche beim Ablesen: Wenn die KI wirklich Zahlen aus einem Bild ablesen musste (z. B. „Wie hoch ist der Punkt auf der Kurve?"), machte sie oft Fehler. Sie war unsicher, ob es 1,5 oder 1,6 ist.
  • Die Zahlen-Angst: Die KI war oft zu ungenau. Wenn das Bild eine genaue Zahl zeigte, gab die KI oft eine gerundete, ungenaue Zahl zurück. Das ist wie wenn jemand 3,14159 auf 3 rundet, obwohl man in der Physik genauere Werte braucht.
  • Bessere Bilder, bessere Ergebnisse: Bei bestimmten Diagrammen (wie den sogenannten Arrhenius-Plots, die wie eine schräge Linie aussehen) wurde die KI mit den neuen Modellen besser. Sie lernt also langsam, wie man Linien interpretiert.

4. Was bedeutet das für die Zukunft?

Die Forscher sagen: KI ist noch nicht bereit, als echter Wissenschaftler zu arbeiten.

  • Das Problem: Die KI ist zu sehr darauf trainiert, Text zu verarbeiten und Muster in Daten zu erkennen, aber sie hat noch Schwierigkeiten, ein Bild wirklich zu sehen und zu verstehen, was es bedeutet.
  • Die Hoffnung: Mit diesem neuen Test (MaterialFigBENCH) können die Entwickler genau sehen, wo die KI hakt. Sie können die KI jetzt so trainieren, dass sie nicht mehr nur „rät", sondern wirklich die Linien auf dem Diagramm verfolgt.

Zusammenfassend:
Stellen Sie sich MaterialFigBENCH wie einen neuen Führerschein-Test für KI vor. Bisher durfte die KI fahren, wenn sie die Straßenschilder auswendig kannte. Jetzt müssen sie aber wirklich auf die Straße schauen, die Kurven sehen und die Geschwindigkeit messen. Bisher haben viele KI-Modelle dabei gestolpert, aber der Test zeigt uns genau, wo wir sie noch mehr üben müssen, damit sie eines Tages echte Materialwissenschaftler unterstützen können.