VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Each language version is independently generated for its own context, not a direct translation.

🧠 VisioMath: Der große „Sehen-und-Vergleichen"-Test für KI

Stell dir vor, du hast einen sehr intelligenten Roboter, der Bilder und Texte versteht. Er kann dir sagen, was auf einem Foto zu sehen ist, und sogar Mathe-Aufgaben lösen. Aber was passiert, wenn du ihm vier fast identische Bilder zeigst und fragst: „Welches davon ist das richtige?"

Genau das ist das Problem, das die Forscher mit VisioMath untersucht haben.

1. Das Problem: Der „Twin-Test" für KI

Stell dir vor, du bist in einer Mathe-Prüfung. Die Aufgabe lautet: „Hier ist ein Graph einer Funktion. Welcher der vier anderen Graphen gehört zur Funktion $y = 2kx + b$ ?"

Die vier Antwortmöglichkeiten (A, B, C, D) sehen sich verdammt ähnlich. Vielleicht ist bei einem die Linie nur ein winziges Stück steiler, oder bei einem fehlt ein kleiner Punkt. Ein Mensch schaut genau hin, vergleicht die Details und findet den Unterschied.

Die Forscher haben 1.800 solcher Aufgaben gesammelt. Es ist wie ein Spiegel-Saal, in dem alle Bilder fast gleich aussehen, aber nur eines ist das „richtige" Spiegelbild.

2. Was haben die KI-Modelle gemacht? (Die Ergebnisse)

Die Forscher haben die besten KI-Modelle der Welt (wie GPT-4, Gemini und verschiedene offene Modelle) durch diesen Spiegel-Saal geschickt. Das Ergebnis war ernüchternd:

Je ähnlicher die Bilder waren, desto dümmer wurde die KI.
Wenn die Bilder sich stark unterschieden, waren die KIs gut. Aber sobald die Bilder wie Zwillinge aussahen, fielen die Ergebnisse drastisch ab.
Die KI hat „abgeschaut" statt zu schauen.
Die Analyse zeigte, dass die KIs oft nicht wirklich gesehen haben. Stattdessen nutzten sie einen faulen Trick: Sie schauten sich an, wo die Bilder standen. „Aha, Antwort A ist immer links oben, also nehme ich das." Sie ignorierten die feinen Details im Bild und verließen sich auf die Position.
Der „Text-Bild-Verlust".
Das größte Problem war, dass die KI den Text der Frage nicht richtig mit dem richtigen Bild verknüpfen konnte. Sie verlor den Faden: „Welches der vier Bilder gehört zu welcher Beschreibung?"

3. Die Lösung: Wie man die KI wieder schlau macht

Die Forscher haben drei Tricks ausprobiert, um die KI zu helfen, besser zu „sehen":

Trick 1: Alles auf einen Haufen.
Statt vier getrennte Bilder zu zeigen, haben sie alle Bilder zu einem einzigen großen Bild zusammengeklebt.
- Vergleich: Stell dir vor, du suchst einen Unterschied zwischen zwei Autos. Wenn sie weit voneinander entfernt stehen, ist es schwer. Wenn du sie aber direkt nebeneinander auf ein Foto klebst, siehst du den Unterschied sofort. Die KI wurde dadurch deutlich besser.
Trick 2: Etiketten direkt auf die Bilder.
Sie haben die Buchstaben A, B, C, D direkt auf die Bilder geschrieben, statt sie nur daneben zu setzen.
- Vergleich: Es ist wie bei einem Koffer im Flugzeug. Wenn der Name nur auf dem Gepäckband steht, ist es schwer. Wenn er direkt auf den Koffer geschrieben ist, weiß man sofort, welcher Koffer der eigene ist. Auch das half der KI.
Trick 3: Der „Gedanken-Trainingskurs" (CoT).
Das war der größte Erfolg. Die Forscher haben der KI eine kleine Menge an Beispielen gegeben, bei denen sie Schritt für Schritt erklärt wurde: „Schau erst auf Bild A, dann auf Bild B, vergleiche die Linie, achte auf den Punkt..."
- Vergleich: Es ist wie ein Nachhilfelehrer, der einem Schüler nicht nur die Lösung gibt, sondern ihm beibringt, wie man die Unterschiede findet. Selbst mit wenig Trainingsdaten konnte die KI ihre Leistung um über 12 % steigern!

4. Warum ist das wichtig?

Bisher haben wir KIs getestet, die nur einfache Bilder erkennen (z. B. „Ist das ein Hund?"). Aber in der echten Welt – besonders in der Schule, im Ingenieurwesen oder in der Medizin – müssen wir oft Details vergleichen.

VisioMath zeigt uns: Unsere KIs sind noch nicht so gut darin, feine Unterschiede zu erkennen und Texte präzise mit Bildern zu verknüpfen. Sie sind gut im „Überfliegen", aber schlecht im „Genau-Hinschauen".

Fazit:
Die Forscher haben einen neuen, sehr schwierigen Test (VisioMath) entwickelt, der zeigt, dass KIs noch lernen müssen, nicht nur zu „gucken", sondern wirklich zu „sehen" und zu vergleichen. Mit den richtigen Tricks (wie dem Zusammenkleben von Bildern oder dem Lernen von Schritt-für-Schritt-Anleitungen) können wir sie aber schon deutlich besser machen.

Die Daten und der Code sind öffentlich verfügbar, damit alle Forscher gemeinsam an dieser „Seh-Schule" für KIs arbeiten können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz erheblicher Fortschritte bei Large Multimodal Models (LMMs) in der Integration von Vision und Sprache bleibt deren Fähigkeit, über mehrere visuell ähnliche Eingaben zu reasoning, unzureichend erforscht. In realen Szenarien, insbesondere im Mathematikunterricht (K–12), müssen Lernende oft zwischen nahezu identischen Diagrammen unterscheiden, um die korrekte Lösung zu finden. Bestehende Benchmarks konzentrieren sich häufig auf einzelne Bilder oder textbasierte Antwortoptionen und vernachlässigen die Herausforderung, feine visuelle Unterschiede in einer Menge von Diagramm-Optionen zu erkennen. LMMs scheitern hier häufig an der korrekten Zuordnung von Text zu spezifischen Bildern (Image-Text-Misalignment) und nutzen stattdessen oberflächliche Heuristiken (z. B. Positionsvermutungen).

2. Methodik: Der VisioMath-Benchmark

Die Autoren stellen VisioMath vor, einen neuartigen, kuratierten Benchmark, der speziell für mathematische Multiple-Choice-Fragen entwickelt wurde, bei denen alle Antwortoptionen als Diagramme vorliegen.

Datensatz: Der Datensatz umfasst 1.800 hochwertige mathematische Probleme aus chinesischen Hochschul- und Schulabschlussprüfungen (2002–2023).
Struktur:
- Jede Frage besteht aus einem Textstamm (Stem), der teilweise (ca. 50 %) zusätzliche Bilder enthält.
- Die vier Antwortoptionen (A, B, C, D) sind jeweils eigenständige Diagramme.
- Die Diagramme weisen eine hohe visuelle Ähnlichkeit auf, unterscheiden sich aber in subtile geometrischen Strukturen oder funktionalen Kurven.
Visual Similarity Metric: Um die Schwierigkeit zu quantifizieren, wird die visuelle Ähnlichkeit $Sim(Q)$ als das Minimum der paarweisen kosinusbasierten Ähnlichkeiten zwischen den Embeddings aller Antwortbilder (kodiert mit einem multimodalen Embedding-Modell) definiert.
Qualitätssicherung: Der Prozess beinhaltet manuelle Überprüfung, Entfernen von Duplikaten, LaTeX-Transkription der Mathematik und eine gleichmäßige Verteilung der korrekten Antworten, um Positions-Bias zu eliminieren.

3. Experimente und Evaluation

Die Autoren führten eine umfassende Evaluation an einer Vielzahl von State-of-the-Art-LMMs durch, darunter geschlossene Modelle (z. B. GPT-4.1, Gemini 2.5 Pro, Seed1.6) und Open-Source-Modelle (z. B. Qwen2.5-VL, InternVL2.5, GLM-4.5V).

Setup: Zero-Shot-Evaluation unter Berücksichtigung von zwei Bedingungen: Textstämme ohne Bilder und Textstämme mit Bildern.
Analyse der Fehler: Eine detaillierte Fehleranalyse (basierend auf GLM-4.5V) identifizierte vier Hauptfehlerkategorien:
1. Image-Text-Misalignment (36 %): Das häufigste Problem. Das Modell verknüpft die Textoption nicht korrekt mit dem zugehörigen Bild.
2. Vision Recognition Error (34 %): Fehler bei der visuellen Wahrnehmung (z. B. Formerkennung).
3. Reasoning Error (20 %): Logische Fehler im Lösungsweg.
4. Knowledge Error (10 %): Fehlendes Domänenwissen.

4. Wichtige Ergebnisse

Leistungsabfall bei hoher Ähnlichkeit: Die Genauigkeit der Modelle sinkt signifikant, wenn die visuelle Ähnlichkeit zwischen den Antwortoptionen steigt. Bei den stärksten Modellen (z. B. Gemini 2.5 Pro) fiel die Genauigkeit von ~86 % bei geringer Ähnlichkeit auf ~77 % bei höchster Ähnlichkeit.
Herausforderung durch Bild-Stämme: Fragen, deren Textstamm bereits Bilder enthalten, stellen eine noch größere Herausforderung dar als rein textbasierte Stämme, da die Modelle mehrere visuelle Quellen gleichzeitig integrieren müssen.
Positions-Heuristik: Ein kontrolliertes Experiment mit dem Shuffling der Bildreihenfolge (bei gleichbleibender Bildreihenfolge, aber vertauschter Zuordnung der Buchstaben A-D) führte zu einem deutlichen Leistungsabfall (z. B. -8,7 % bei Gemini 2.5 Pro). Dies beweist, dass viele Modelle sich auf die Position der Bilder verlassen, anstatt semantische Korrespondenzen zu verstehen.
Menschlicher Vergleich: Menschen zeigen zwar auch einen leichten Leistungsabfall bei hoher Ähnlichkeit, bleiben aber deutlich robuster als LMMs, da sie subtile Unterschiede durch sorgfältige Beobachtung und logisches Denken erkennen können.

5. Strategien zur Leistungsverbesserung

Die Autoren untersuchten drei Strategien zur Minderung der Image-Text-Misalignment-Probleme:

Konsolidiertes Einzelbild-Layout (Training-free): Alle Bilder (Stamm und Optionen) werden zu einem einzigen Bild zusammengesetzt. Dies verbesserte die Leistung (z. B. +6,4 % bei Seed1.6-Thinking), da es die Aufmerksamkeitsverteilung des Modells erleichtert.
Explizite visuelle-textuelle Anker (Training-free): Direkte Beschriftung der Bilder mit den entsprechenden Buchstaben (A, B, C, D) innerhalb des Bildes. Dies führte zu signifikanten Verbesserungen (z. B. +9,8 % bei QwenVL-plus), indem die Zuordnung explizit gemacht wurde.
Alignment-orientiertes Multi-Image Chain-of-Thought (CoT) Fine-Tuning: Erstellung eines spezialisierten CoT-Datensatzes (500 hochwertige Beispiele), der das Modell anleitet, jedes Bild einzeln zu beschreiben und dann eine globale Schlussfolgerung zu ziehen.
- Ergebnis: Selbst mit nur wenigen Daten erzielte das Fine-Tuning massive Genauigkeitsgewinne. Qwen2.5-VL-3B verbesserte sich von 25,4 % auf 38,0 % (+12,6 %) und übertraf damit größere Modelle ohne Fine-Tuning.

6. Bedeutung und Beitrag

VisioMath als Benchmark: Es ist der erste Benchmark, der sich spezifisch auf das comparative Reasoning über visuell ähnliche Diagramm-Optionen konzentriert. Er füllt eine Lücke in der Evaluierung von LMMs für komplexe mathematische Aufgaben.
Aufdeckung fundamentaler Grenzen: Die Arbeit zeigt, dass selbst die fortschrittlichsten LMMs bei der feinen Unterscheidung und der korrekten Verknüpfung von Text und Bild in Mehrbild-Szenarien versagen.
Richtungsweisend für die Forschung: Die Ergebnisse unterstreichen die Notwendigkeit von Mechanismen, die eine robuste Cross-Modal-Ausrichtung (Alignment) über mehrere Bild-Text-Paare hinweg fördern. Die vorgestellten Strategien (insbesondere CoT-Fine-Tuning) bieten einen praktischen Weg, um diese Fähigkeiten zu verbessern.
Anwendungsbezug: Der Benchmark ist direkt relevant für die Entwicklung von KI-gestützten Tutorensystemen und Bildungsanwendungen, die Diagramme interpretieren müssen.

Zusammenfassend demonstriert VisioMath, dass die nächste Generation von Multimodal-Modellen nicht nur in der Bilderkennung, sondern vor allem in der präzisen, feinkörnigen visuellen Diskriminierung und der korrekten semantischen Verankerung über mehrere Bilder hinweg verbessert werden muss.

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

🧠 VisioMath: Der große „Sehen-und-Vergleichen"-Test für KI

1. Das Problem: Der „Twin-Test" für KI

2. Was haben die KI-Modelle gemacht? (Die Ergebnisse)

3. Die Lösung: Wie man die KI wieder schlau macht

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der VisioMath-Benchmark

3. Experimente und Evaluation

4. Wichtige Ergebnisse

5. Strategien zur Leistungsverbesserung

6. Bedeutung und Beitrag

Mehr davon

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning