ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

本文提出了 ViRC 框架,通过引入受认知科学启发的“推理分块”机制及配套的 CRUX 数据集,使多模态大模型能够像人类专家一样在数学解题过程中动态结合视觉信息与分步逻辑推理,从而显著提升了数学任务的表现。

Lihong Wang, Liangqi Li, Weiwei Feng, Jiamin Wu, Changtao Miao, Tieru Wu, Rui Ma, Bo Zhang, Zhe Li

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VIRC 的新方法,旨在让 AI 像人类专家一样解决复杂的数学几何题。

为了让你轻松理解,我们可以把解决数学题的过程想象成**“在一张巨大的藏宝图上寻找宝藏”**。

1. 以前的 AI 是怎么做的?(痛点)

  • 笨办法(纯文本 CoT): 就像一个人拿着藏宝图,但只读文字描述,完全不看图。他试图靠想象来解题,结果经常看错角度、量错距离,导致算出错误的宝藏位置。
  • 旧版视觉 AI(Visual CoT): 就像一个人拿着藏宝图,每走一步都要把整张图重新放大、重新看一遍。虽然看得很仔细,但他不管有没有必要,每说一句话都要把图拿出来晃一下。这导致他看花了眼,而且浪费了大量时间,甚至被无关的细节干扰,忘了自己刚才在找什么。

2. 人类专家是怎么做的?(灵感来源)

人类专家(比如数学老师)在解题时,遵循一个聪明的策略,论文称之为**“分块思维”(Reason Chunking),这基于心理学著名的“米勒定律”**(人脑短期记忆只能同时处理约 7 个信息块)。

  • 人类的做法:
    1. 先看全局: 扫一眼图,心里有个大计划(“我要先找这个三角形的角度”)。
    2. 分块攻克: 把大问题拆成几个小任务(“块 1:算出角 A",“块 2:算出边长 B")。
    3. 按需查看: 只有在需要解决“块 1"时,才把图放大到“角 A"的位置仔细看;解决完“块 1"后,把图收起来,在脑子里推理“块 2",直到需要“块 2"的视觉信息时,再放大到对应位置。
    4. 自我纠错: 如果发现刚才算错了,会立刻回头重新看那个局部,而不是从头再看一遍整张图。

3. VIRC 是怎么模仿人类的?(核心创新)

VIRC 框架就是教 AI 学会这种**“分块 + 按需查看”**的本领。

  • 核心机制:关键推理单元 (CRU)
    论文把解题过程切分成一个个**“关键推理单元”(CRU)**。

    • 想象每个 CRU 是一个**“任务包”**。在这个任务包里,AI 先进行一段连续的逻辑推理(比如“因为 A 等于 B,所以 C 等于 D"),中间不需要看图
    • 只有当这个“任务包”需要新的视觉证据来验证下一个结论时,AI 才会主动调用工具(比如“放大图片”、“裁剪局部”、“显示原图”)。
    • 比喻: 就像侦探破案,他先根据线索在脑子里推理(“凶手可能是左撇子”),推理到需要确认指纹时,才去拿放大镜看(调用工具),而不是每想一句话就拿起放大镜看一眼。
  • 四大思维模式:
    为了让 AI 更像人,VIRC 还训练了四种思维习惯:

    1. 规划 (Planning): 先看图,制定大战略。
    2. 反思 (Reflecting): 发现刚才看的局部不够,调整视角再看。
    3. 验证 (Verifying): 算出结果后,回头再确认一下图上的细节。
    4. 回溯 (Backtracking): 发现走错路了,立刻放大或缩小图片,重新审视之前的步骤。

4. 怎么教 AI 学会这套本领?(训练过程)

作者不仅提出了方法,还造了一个巨大的**“训练场”(CRUX 数据集)**,里面有 10 万道数学题,并且每一道题都标注了人类专家是如何“分块”和“看图”的。

训练分三步走,就像培养一个实习生:

  1. 理论课 (Instructional SFT): 先不给图,只给文字版的“分块解题步骤”,让 AI 学会**“怎么把大问题拆成小任务”**的逻辑结构。
  2. 实习课 (Practice SFT): 给图和工具,让 AI 在真实场景中练习,学会**“什么时候该看图,什么时候该推理”**。
  3. 实战特训 (Strategic RL): 专门挑那些很难的题,让 AI 反复试错。如果它乱看图或者推理逻辑不通,就扣分;如果它像专家一样精准地调用工具并算出答案,就给高分。

5. 效果如何?

  • 成绩斐然: 经过这套训练,VIRC 模型在数学几何题上的表现大幅超越了之前的所有模型(平均提升了 18.8%)。
  • 举一反三: 它不仅在数学题上厉害,在处理高清图片(比如看复杂的工程图纸或风景照找细节)时,也能表现出很强的通用能力。

总结

这篇论文的核心思想就是:不要试图用“死记硬背”或“无脑刷屏”的方式去解题。

VIRC 教会了 AI**“像人类一样思考”**:把复杂的问题拆成小块,只在需要的时候才去“看”图,并在推理过程中不断自我检查和修正。这不仅让 AI 算得更准,也让它变得更聪明、更高效。