VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Das Paper stellt VisioMath vor, ein Benchmark mit 1.800 mathematischen Aufgaben, bei denen Modelle zwischen visuell ähnlichen Diagrammen unterscheiden müssen, und zeigt, dass aktuelle Large Multimodal Models aufgrund von Fehlern bei der Bild-Text-Ausrichtung scheitern, was durch gezielte Alignierungsstrategien verbessert werden kann.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧠 VisioMath: Der große „Sehen-und-Vergleichen"-Test für KI

Stell dir vor, du hast einen sehr intelligenten Roboter, der Bilder und Texte versteht. Er kann dir sagen, was auf einem Foto zu sehen ist, und sogar Mathe-Aufgaben lösen. Aber was passiert, wenn du ihm vier fast identische Bilder zeigst und fragst: „Welches davon ist das richtige?"

Genau das ist das Problem, das die Forscher mit VisioMath untersucht haben.

1. Das Problem: Der „Twin-Test" für KI

Stell dir vor, du bist in einer Mathe-Prüfung. Die Aufgabe lautet: „Hier ist ein Graph einer Funktion. Welcher der vier anderen Graphen gehört zur Funktion y=2kx+by = 2kx + b?"

Die vier Antwortmöglichkeiten (A, B, C, D) sehen sich verdammt ähnlich. Vielleicht ist bei einem die Linie nur ein winziges Stück steiler, oder bei einem fehlt ein kleiner Punkt. Ein Mensch schaut genau hin, vergleicht die Details und findet den Unterschied.

Die Forscher haben 1.800 solcher Aufgaben gesammelt. Es ist wie ein Spiegel-Saal, in dem alle Bilder fast gleich aussehen, aber nur eines ist das „richtige" Spiegelbild.

2. Was haben die KI-Modelle gemacht? (Die Ergebnisse)

Die Forscher haben die besten KI-Modelle der Welt (wie GPT-4, Gemini und verschiedene offene Modelle) durch diesen Spiegel-Saal geschickt. Das Ergebnis war ernüchternd:

  • Je ähnlicher die Bilder waren, desto dümmer wurde die KI.
    Wenn die Bilder sich stark unterschieden, waren die KIs gut. Aber sobald die Bilder wie Zwillinge aussahen, fielen die Ergebnisse drastisch ab.
  • Die KI hat „abgeschaut" statt zu schauen.
    Die Analyse zeigte, dass die KIs oft nicht wirklich gesehen haben. Stattdessen nutzten sie einen faulen Trick: Sie schauten sich an, wo die Bilder standen. „Aha, Antwort A ist immer links oben, also nehme ich das." Sie ignorierten die feinen Details im Bild und verließen sich auf die Position.
  • Der „Text-Bild-Verlust".
    Das größte Problem war, dass die KI den Text der Frage nicht richtig mit dem richtigen Bild verknüpfen konnte. Sie verlor den Faden: „Welches der vier Bilder gehört zu welcher Beschreibung?"

3. Die Lösung: Wie man die KI wieder schlau macht

Die Forscher haben drei Tricks ausprobiert, um die KI zu helfen, besser zu „sehen":

  • Trick 1: Alles auf einen Haufen.
    Statt vier getrennte Bilder zu zeigen, haben sie alle Bilder zu einem einzigen großen Bild zusammengeklebt.
    • Vergleich: Stell dir vor, du suchst einen Unterschied zwischen zwei Autos. Wenn sie weit voneinander entfernt stehen, ist es schwer. Wenn du sie aber direkt nebeneinander auf ein Foto klebst, siehst du den Unterschied sofort. Die KI wurde dadurch deutlich besser.
  • Trick 2: Etiketten direkt auf die Bilder.
    Sie haben die Buchstaben A, B, C, D direkt auf die Bilder geschrieben, statt sie nur daneben zu setzen.
    • Vergleich: Es ist wie bei einem Koffer im Flugzeug. Wenn der Name nur auf dem Gepäckband steht, ist es schwer. Wenn er direkt auf den Koffer geschrieben ist, weiß man sofort, welcher Koffer der eigene ist. Auch das half der KI.
  • Trick 3: Der „Gedanken-Trainingskurs" (CoT).
    Das war der größte Erfolg. Die Forscher haben der KI eine kleine Menge an Beispielen gegeben, bei denen sie Schritt für Schritt erklärt wurde: „Schau erst auf Bild A, dann auf Bild B, vergleiche die Linie, achte auf den Punkt..."
    • Vergleich: Es ist wie ein Nachhilfelehrer, der einem Schüler nicht nur die Lösung gibt, sondern ihm beibringt, wie man die Unterschiede findet. Selbst mit wenig Trainingsdaten konnte die KI ihre Leistung um über 12 % steigern!

4. Warum ist das wichtig?

Bisher haben wir KIs getestet, die nur einfache Bilder erkennen (z. B. „Ist das ein Hund?"). Aber in der echten Welt – besonders in der Schule, im Ingenieurwesen oder in der Medizin – müssen wir oft Details vergleichen.

VisioMath zeigt uns: Unsere KIs sind noch nicht so gut darin, feine Unterschiede zu erkennen und Texte präzise mit Bildern zu verknüpfen. Sie sind gut im „Überfliegen", aber schlecht im „Genau-Hinschauen".

Fazit:
Die Forscher haben einen neuen, sehr schwierigen Test (VisioMath) entwickelt, der zeigt, dass KIs noch lernen müssen, nicht nur zu „gucken", sondern wirklich zu „sehen" und zu vergleichen. Mit den richtigen Tricks (wie dem Zusammenkleben von Bildern oder dem Lernen von Schritt-für-Schritt-Anleitungen) können wir sie aber schon deutlich besser machen.

Die Daten und der Code sind öffentlich verfügbar, damit alle Forscher gemeinsam an dieser „Seh-Schule" für KIs arbeiten können.