CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow ist ein neuartiges, vom menschlichen Denken inspiriertes Drei-Stufen-Framework, das durch eine Wissensinternalisierung und spezielle Belohnungsmechanismen die Lücke zwischen visueller Wahrnehmung und logischem Schlussfolgern schließt, um die Leistung von multimodalen Sprachmodellen bei der Lösung visueller mathematischer Probleme signifikant zu verbessern.

Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan

Veröffentlicht 2026-02-25
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, eine komplexe geometrische Aufgabe zu lösen, bei der du ein Bild (z. B. einen Kreis mit Linien und Winkeln) betrachten und dann mathematisch ableiten musst, was das Ergebnis ist.

Die meisten aktuellen KI-Modelle sind wie sehr schnelle, aber etwas chaotische Schüler. Sie schauen auf das Bild, rufen sofort eine Antwort heraus und versuchen, eine Erklärung zu erfinden. Oft passiert dabei aber Folgendes: Sie sehen das Bild nicht genau genug, oder sie vergessen, was sie gerade gesehen haben, und erfinden dann eine Logik, die zwar im Kopf gut klingt, aber mit dem Bild nichts zu tun hat. Das nennt man im Papier "Reasoning Drift" (Abdrift des Denkens).

Die Forscher von COGFLOW haben eine neue Methode entwickelt, die wie ein guter Lehrer funktioniert, der einem Schüler beibringt, nicht nur zu raten, sondern wirklich zu verstehen.

Hier ist die Erklärung der Methode in drei einfachen Schritten, verglichen mit dem menschlichen Lernen:

1. Der Schritt "Wahrnehmen" (Perception) – Das scharfe Auge

Stell dir vor, ein Schüler schaut auf ein geometrisches Bild. Ein normales KI-Modell sieht vielleicht nur "da ist ein Kreis". COGFLOW zwingt das Modell jedoch, wie ein Architekt mit einem Maßband zu arbeiten.

  • Die Metapher: Bevor es überhaupt überlegt, misst das Modell jeden Punkt, jede Linie und jeden Winkel genau aus. Es wandelt das Bild in eine präzise Liste von Koordinaten um (z. B. "Punkt A ist bei x=10, y=20").
  • Der Trick: Das Modell bekommt eine Belohnung (einen "Stern"), wenn diese Messungen exakt mit dem Bild übereinstimmen. Es lernt also, das Bild nicht nur zu "gucken", sondern es präzise zu "lesen".

2. Der Schritt "Verinnerlichen" (Internalization) – Das Notizbuch

Das ist der wichtigste und neueste Teil von COGFLOW. Viele Modelle springen direkt vom Sehen zum Raten. COGFLOW fügt eine Pausenphase ein.

  • Die Metapher: Stell dir vor, der Schüler hat das Bild genau gemessen. Bevor er die Formel anwendet, schreibt er sich in ein Notizbuch auf: "Ich habe gesehen, dass AB ein Durchmesser ist. Das bedeutet, der Winkel hier muss 90 Grad sein."
  • Das Problem, das gelöst wird: Ohne dieses Notizbuch vergessen KIs oft, was sie gesehen haben, und fangen an zu halluzinieren (z. B. "Oh, da ist ein Dreieck, also muss ich den Satz des Pythagoras nehmen", obwohl das Bild gar kein Dreieck zeigt).
  • Die Lösung: COGFLOW hat einen speziellen "Korrektor" (den Knowledge Internalization Reward), der prüft: "Hast du wirklich das, was du im Bild gesehen hast, in deine Logik übernommen?" Wenn das Modell etwas Erfindet, das nicht im Bild steht, gibt es keine Punkte. So wird sichergestellt, dass die Logik fest auf dem Bild steht.

3. Der Schritt "Schlussfolgern" (Reasoning) – Der logische Bau

Jetzt, wo das Modell das Bild genau gemessen hat und seine Erkenntnisse im "Notizbuch" stehen, darf es endlich die eigentliche Rechnung machen.

  • Die Metapher: Das Modell ist jetzt wie ein Baumeister, der erst die genauen Pläne (die Messungen) und die Materialliste (die Notizen) hat, bevor er das Haus baut.
  • Der Sicherheitsmechanismus: Es gibt eine "Sichtklappe" (Visual Gate). Wenn das Modell beim Messen (Schritt 1) einen schlechten Job macht, wird dieser Versuch verworfen und das Modell muss es noch einmal versuchen, bevor es zur Logik übergeht. So wird verhindert, dass auf einem schlechten Fundament gebaut wird.

Warum ist das so besonders?

Bisherige Methoden waren wie ein Zaubertrick: Sie versuchten, das Bild und die Logik gleichzeitig zu machen, was oft zu Fehlern führte. COGFLOW trennt die Aufgaben auf:

  1. Sehen (sehr genau messen).
  2. Verstehen (die Messungen in logische Fakten umwandeln).
  3. Rechnen (die Logik anwenden).

Das Team hat auch eine riesige Übungssammlung (MATHCOG) erstellt, in der genau diese drei Schritte für über 120.000 Aufgaben trainiert wurden.

Das Ergebnis:
Das Modell COGFLOW ist nicht nur besser im Rechnen, sondern macht viel weniger "Sinneseindrücke-Fehler". Es ist wie ein Schüler, der wirklich lernt, die Welt zu beobachten, bevor er urteilt. In Tests schlägt es sogar viele riesige, teure KI-Modelle, obwohl es selbst relativ klein ist.

Zusammengefasst: COGFLOW lehrt die KI, nicht nur zu "raten", sondern erst genau hinzusehen, dann die Fakten zu notieren und erst dann zu denken. So wird die KI zu einem verlässlichen Partner bei mathematischen Rätseln.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →