CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Die Arbeit „CodePercept" identifiziert die Wahrnehmungsfähigkeit als den entscheidenden Engpass für MLLMs im visuellen STEM-Reasoning und schlägt einen Paradigmenwechsel vor, bei dem ausführbarer Code als präzises Wahrnehmungsmedium dient, was durch die Einführung des 1-Millionen-Einträge-Datensatzes ICC-1M und des Evaluierungsbenchmarks STEM2Code-Eval untermauert wird.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung „CodePercept", als würde man sie einem Freund beim Kaffee erzählen – ganz ohne Fachchinesisch.

Das große Rätsel: Warum scheitern KI-Modelle an Mathe-Bildern?

Stell dir vor, du hast einen sehr schlauen Roboter (eine KI), der super gut reden und rechnen kann. Aber wenn du ihm ein Bild zeigst, auf dem eine komplexe geometrische Figur oder ein physikalisches Experiment zu sehen ist, und ihn bittest, die Aufgabe zu lösen, stolpert er oft.

Die Forscher stellten sich die Frage: Ist der Roboter dumm beim Rechnen (Reasoning), oder sieht er die Dinge einfach nicht richtig (Perception)?

Um das herauszufinden, führten sie ein Experiment durch, das wie ein Muskel-Training funktioniert:

  • Sie machten den „Rechen-Muskel" des Roboters riesig, ließen aber den „Seh-Muskel" klein. -> Ergebnis: Der Roboter wurde nicht viel besser.
  • Sie machten den „Seh-Muskel" riesig, ließen aber den „Rechen-Muskel" klein. -> Ergebnis: Plötzlich wurde der Roboter extrem gut!

Die Erkenntnis: Das Problem ist nicht, dass die KI nicht rechnen kann. Das Problem ist, dass sie die Bilder nicht wirklich versteht. Sie sieht nur eine Ansammlung von Pixeln, aber nicht die genauen Abstände, die exakten Zahlen oder die räumliche Struktur.

Die Lösung: Code als „Brille" für die KI

Wie kann man einem Roboter helfen, Bilder besser zu verstehen? Die Forscher hatten eine geniale Idee: Lass die KI den Code schreiben, mit dem das Bild gezeichnet wurde.

Stell dir vor, du beschreibst ein Bild mit Worten: „Da ist ein roter Kreis links." Das ist ungenau. Ist er groß? Ist er genau in der Mitte?
Wenn du aber Code schreibst (z. B. in Python), musst du präzise sein: draw_circle(x=10, y=20, radius=5, color='red').

  • Die Analogie: Wenn die KI den Code schreiben muss, um das Bild zu zeichnen, kann sie nicht lügen. Sie muss die genauen Koordinaten kennen. Wenn sie den Code ausführt und das Bild sieht, das dabei herauskommt, weiß sie sofort: „Oh, mein Code war falsch, der Kreis war nicht da."
  • Der Vorteil: Code ist wie ein Baukasten mit genauen Bauplänen. Er lässt keine Raum für Missverständnisse oder „Halluzinationen" (das Erfinden von Dingen, die nicht da sind), wie es bei reinen Textbeschreibungen oft passiert.

Was haben die Forscher konkret gemacht?

Sie haben drei Dinge geschaffen, um diesen „Code-Brillen"-Ansatz zu trainieren:

  1. Der riesige Trainings-Schatz (ICC-1M):
    Sie haben eine Datenbank mit 1 Million Bildern erstellt. Zu jedem Bild gibt es nicht nur eine Beschreibung, sondern auch den exakten Code, der das Bild erzeugt hat.

    • Wie ein Kochbuch: Statt nur zu sagen „Mach einen leckeren Kuchen", haben sie das genaue Rezept (Code) mitgeliefert, damit die KI genau weiß, wie viel Mehl und Zucker rein muss.
  2. Zwei neue Lern-Methoden:

    • Bild zu Code: Die KI lernt, ein Bild zu sehen und den passenden Bauplan (Code) zu schreiben.
    • Code zu Bild-Beschreibung: Die KI nutzt den Code, um eine perfekte Textbeschreibung zu schreiben. Da der Code die Wahrheit sagt, ist die Beschreibung auch wahrhaftig.
  3. Der neue Test (STEM2Code-Eval):
    Früher testete man KIs, indem man sie Matheaufgaben lösen ließ. Wenn sie falsch lagen, wusste man nicht, ob sie das Bild nicht verstanden oder den Rechenweg nicht kannten.
    Der neue Test ist wie ein Zeichentest: Die KI bekommt ein Bild und muss den Code schreiben, der genau dieses Bild nachzeichnet.

    • Das Ergebnis: Entweder der Code funktioniert und das Bild sieht genau so aus (Bestanden!), oder es klappt nicht (Durchgefallen). Es gibt keine Ausreden mehr.

Das Ergebnis

Nachdem sie die KI mit dieser „Code-Methode" trainiert hatten, geschah Magie:

  • Die KI wurde plötzlich viel besser darin, Bilder zu verstehen.
  • Sie konnte komplexe geometrische Formen, Diagramme und wissenschaftliche Zeichnungen viel genauer beschreiben.
  • Und das Beste: Auch ihre Fähigkeit, die eigentlichen Mathe-Aufgaben zu lösen, verbesserte sich drastisch, weil sie nun die Bilder wirklich sah und nicht nur errat.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass KI-Modelle bei Wissenschaftsaufgaben oft scheitern, weil sie Bilder nicht genau genug „sehen". Indem sie die KI gezwungen haben, Programmiercode zu schreiben, um diese Bilder nachzubauen, haben sie ihr eine Art „Super-Brille" aufgesetzt, die sie präziser, genauer und schlauer macht.