CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow 是一个受人类认知启发的三阶段框架,通过引入知识内化机制、协同视觉奖励及视觉门控策略优化算法,有效解决了多模态大模型在视觉数学推理中感知与推理脱节的问题,并配合新构建的 MathCog 数据集显著提升了模型性能。

Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 COGFLOW 的新系统,它旨在解决人工智能(AI)在解决“看图数学题”时的一个核心痛点:AI 往往“看错了图”或者“看对了图却没理解透”,导致后面的推理过程虽然听起来很有道理,但其实是建立在错误基础上的“空中楼阁”。

为了让你更容易理解,我们可以把 AI 做数学题的过程想象成一个学生参加数学考试

1. 以前的 AI 是怎么做题的?(痛点)

想象一下,以前的 AI 模型(比如 VLM-R1 或 MathFlow)在解题时有两种常见的“坏习惯”:

  • 坏习惯一:边看边想,手忙脚乱(One-step Reasoning)。
    这就好比一个学生拿到题目,眼睛盯着图,脑子里同时开始写解题步骤。因为注意力太分散,他可能把图里的"5"看成了"3",或者把“直径”看成了“半径”。一旦看错了,后面的计算全错,但他自己还觉得逻辑很通顺。
  • 坏习惯二:先看图,再做题,但中间“断片”了(Decoupled Pipeline)。
    这种模式稍微好点,先专门看图,把图里的信息提取出来(比如:这是一个圆,半径是 5),然后再开始推理。
    但是! 问题出在中间环节。就像学生把图里的信息抄到了草稿纸上,但在开始正式解题时,他忘记了自己抄的是什么,或者抄错了,甚至开始瞎编一些图里根本没有的条件(比如图里明明没有直角,他非要假设有个直角)。这就叫**“推理漂移”(Reasoning Drift)**。他后面的推理步骤可能逻辑完美,但因为起点(视觉信息)错了,答案还是错的。

2. COGFLOW 是怎么解决的?(核心创新)

COGFLOW 受到人类认知科学的启发,认为人类解题不是“看一眼就答”,而是分三个清晰的阶段:感知(看) -> 内化(懂) -> 推理(算)

它把这三个阶段像盖房子一样,一层一层地加固:

第一阶段:感知(Perception)—— “把图看得清清楚楚”

  • 以前的做法: 只是大概看一眼,说“这里有个圆”。
  • COGFLOW 的做法: 它引入了**“协同视觉奖励”(Synergistic Visual Rewards)**。
    • 比喻: 这就像给 AI 配了两个“纠错老师”。
      • 老师 A(参数老师): 拿着尺子量。如果图里说圆半径是 5,AI 说 5.1,老师 A 就会扣分。它确保几何数据的精准度
      • 老师 B(审美老师): 拿着整体图看。如果 AI 把圆画歪了,或者线条位置不对,老师 B 就会扣分。它确保整体布局和图的一致性。
    • 结果: AI 被迫把图里的每一个点、每一条线都精准地“翻译”成数学语言,不再瞎蒙。

第二阶段:内化(Internalization)—— “把看到的变成脑子里的知识”

  • 以前的做法: 把看到的点(A 点坐标)直接扔给推理模块,中间没有消化。
  • COGFLOW 的做法: 增加了一个**“知识内化奖励”(Knowledge Internalization Reward)**。
    • 比喻: 这就像学生把草稿纸上的数据,重新整理成自己的“解题笔记”。
    • 在这个阶段,AI 必须明确地告诉自己:“因为 AB 是直径,所以角 ACB 是 90 度”。它不能直接跳步。
    • 如果 AI 试图在笔记里编造一个图里没有的条件(比如“因为三角形是等腰的”但图里没画),这个“内化老师”会立刻发现并惩罚它。
    • 作用: 这就像给推理过程加了一道**“安检门”**,确保推理的起点是绝对忠实于图片的,防止“推理漂移”。

第三阶段:推理(Reasoning)—— “基于事实的逻辑推导”

  • 以前的做法: 只要最后答案对就行,不管中间是不是瞎编的。
  • COGFLOW 的做法: 引入了**“视觉门控策略优化”(Visual-Gated Policy Optimization, VGPO)**。
    • 比喻: 这就像考试时的**“自我检查机制”**。
    • 在 AI 开始写解题步骤之前,它会先问自己:“我刚才看的图准不准?”
    • 如果它觉得自己刚才“看”得不够好(比如坐标算错了),它会被**“门”挡住,不允许进入推理阶段,必须重新看一遍图**,直到看准了为止。
    • 只有通过了“视觉安检”的高质量感知,才能进入推理环节。这确保了推理是脚踏实地的,而不是在沙滩上盖楼。

3. 他们做了什么额外的工作?(数据集)

为了让 AI 学会这种“分步走”的解题习惯,作者们还专门制作了一个叫 MATHCOG 的大题库。

  • 比喻: 以前的题库只给“题目”和“答案”。COGFLOW 的题库不仅给题目,还详细标注了**“怎么看图(Watching)”“怎么理解(Thinking/内化)”“怎么算(Answer)”**。
  • 这个题库里有 12 万多个高质量的样本,专门训练 AI 如何把“看到的”完美地转化为“想到的”。

4. 效果怎么样?

实验结果显示,COGFLOW 在多个数学视觉推理的测试中,表现都吊打了现有的开源模型,甚至能和一些闭源的超级大模型(如 GPT-4o, Claude 等)掰手腕,而且它的模型大小(7B)比那些大模型小得多。

总结一下:
COGFLOW 就像是一个严谨的数学学霸。它不急着下笔,而是先精准地观察(感知),然后深刻地理解(内化),最后逻辑严密地推导(推理)。它通过一套特殊的“奖励机制”和“安检门”,强迫 AI 改掉“瞎编”和“看错”的坏毛病,真正做到了**“所见即所得,所得即所推”**。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →