CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CodePercept 的新方法，旨在解决多模态大模型（MLLMs）在**科学、技术、工程和数学（STEM）**领域“看图解题”时经常犯错的难题。

简单来说，作者发现了一个核心问题：模型不是“想”得不够聪明，而是“看”得不够仔细。

下面我用几个生动的比喻来为你拆解这篇论文的核心内容：

1. 核心发现：是“视力”问题，不是“智商”问题

想象一下，你让一个超级天才（大模型）做一道复杂的几何题。

传统观点：大家觉得他做错了，是因为他逻辑推理能力不够强（智商不够），于是拼命给他做逻辑训练，让他“多思考”。
作者发现：作者做了一个实验，把“看图”和“解题”拆开。他们发现，如果只提升模型的**“视力”（感知能力），解题成绩提升巨大；但如果只提升“逻辑”（推理能力）**，成绩却提升有限。
结论：现在的模型就像是一个**“近视眼天才”**。他脑子里的逻辑很强大，但因为看不清图上的细节（比如线条的精确位置、数字的具体大小），导致推理的基础全是错的。治好“近视”，比训练“逻辑”更重要。

2. 解决方案：用“代码”当“眼镜”

既然模型看不清，怎么帮它看清呢？作者没有让它继续用模糊的“自然语言”（比如“这里有个红色的圆”）来描述图片，因为语言太模糊，容易产生幻觉（比如把 3 个圆看成 4 个）。

作者提出：让模型用“代码”来描述图片。

比喻：
- 自然语言描述：就像你口头告诉画家“画个大概的三角形，大概在这个位置”。画家画出来可能歪歪扭扭，位置也不对。
- 代码描述：就像你给画家一张精确的施工图纸，上面写着：“在坐标 (0,0) 画一条线，长度 5，角度 90 度”。
为什么代码好？ 代码是可执行的。如果模型生成的代码能完美画出原图，那就证明它真的“看”懂了图里的每一个细节（位置、数量、关系）。代码没有歧义，是检验“视力”的金标准。

3. 三大法宝：如何训练这个“近视眼”？

为了训练模型学会用“代码”看世界，作者做了三件大事：

A. 制造了 100 万张“图纸” (ICC-1M 数据集)

他们构建了一个巨大的数据库，包含 100 万个“图片 - 文字描述 - 代码”的三元组。

做法：他们不仅让模型看图写代码，还通过三种方式生成数据：
1. 复刻：把现有的数学题图片转成代码。
2. 变奏：提取数学原理，生成成千上万种新变体（比如把多米诺骨牌变成圆形排列、三角形排列），让模型见识各种情况。
3. 立体几何：专门针对最难画的立体图形，用模板生成代码，弥补模型在空间想象上的短板。

B. 两种新训练任务

代码辅助写描述：先让模型生成精确的代码，再根据代码写出准确的文字描述。这就像先有了精确的施工图，再写装修说明书，彻底消除了“瞎编乱造”（幻觉）。
看图直接写代码：直接训练模型看到图就写出能画出该图的代码。这强迫模型必须关注每一个像素和几何关系，不能含糊其辞。

C. 发明了“照妖镜” (STEM2Code-Eval 评测基准)

以前的评测是看模型能不能做对题，但这不能区分是“看对了”还是“蒙对了”。

新方法：给模型一张图，让它写代码把图重新画出来。
评判标准：代码能不能运行？画出来的图跟原图像不像？如果画得一模一样，说明模型真的“看”懂了。这就像考厨师，以前是问他“怎么做宫保鸡丁”，现在是让他真的做出来，味道对了才算过。

4. 实验结果：效果惊人

经过这种“代码 grounding"（代码落地）的训练，模型的表现有了质的飞跃：

小模型逆袭：一个只有 80 亿参数的小模型，经过训练后，在数学视觉推理上的表现，竟然超过了那些几百亿参数的“巨无霸”模型。
精准度提升：在需要极高精度的任务中（比如数清楚图里有多少个点、线连在哪里），模型不再犯低级错误。

总结

这篇论文告诉我们一个道理：在科学和数学的世界里，模糊的“感觉”是靠不住的，精确的“逻辑构建”才是王道。

作者给多模态大模型戴上了一副**“代码眼镜”**，让它们不再靠模糊的直觉去猜图，而是通过编写精确的“施工图纸”（代码）来理解世界。这不仅治好了模型的“近视眼”，还让它们在 STEM 领域真正具备了“火眼金睛”。

一句话概括：别光教模型怎么“想”，先教它怎么通过写代码把图“画”对，它自然就变聪明了。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与核心问题 (Problem)

核心问题：
多模态大语言模型（MLLMs）在科学、技术、工程、数学（STEM）领域的视觉推理任务中经常失败。当发生失败时，根本原因究竟是感知能力（Perception）的不足，还是推理能力（Reasoning）的局限？

现有研究的局限性：

归因模糊： 大多数现有工作倾向于通过强化学习（RL）或思维链（CoT）来增强推理能力，而忽视了感知层面的缺陷。
评估代理指标失效： 现有的评估通常依赖“解题准确率”作为感知能力的代理指标。然而，解题成功可能掩盖了感知错误（例如，模型可能猜对了答案但看错了图），或者解题失败可能源于推理而非感知。
自然语言的歧义性： 许多 STEM 图像（如复杂的几何辅助线、精确的空间关系、定量数值）难以用自然语言准确描述，存在“描述性失语”现象。传统的知识蒸馏（让大模型生成描述）容易引入幻觉（Hallucination），导致事实性错误。

关键发现（Scaling Analysis）：
作者通过系统性的扩展分析（Scaling Analysis），将视觉推理解耦为“感知（图像转描述）”和“推理（描述转答案）”两个阶段，并独立扩展各部分能力。实验结果表明：扩展感知能力带来的性能提升始终优于扩展推理能力。这证明感知能力是当前 STEM 视觉推理的真正瓶颈。

2. 方法论 (Methodology)

为了解决感知瓶颈，作者提出了 CodePercept 范式，核心思想是将“可执行代码”作为感知的锚点（Ground Truth）。代码具有精确的语义和结构化特性，能完美对齐 STEM 视觉的严谨性。

2.1 核心数据构建：ICC-1M

作者构建了包含 100 万 高质量“图像 - 描述 - 代码”三元组的大规模数据集 ICC-1M。数据生成通过三个互补的流水线实现：

图像复现 (Image Reproduction, FIR)： 将现有的 STEM 图像转化为可执行的 Python 代码（基于 matplotlib），再基于代码生成图像。
图像多样性 (Image Diversity, FID)： 从种子图像中提取科学原理，利用代码生成多样化的新图像（例如，将多米诺骨牌逻辑转化为圆形、三角形等不同布局），在保持概念有效性的同时增加数据多样性。
立体几何合成 (Solid Geometry Synthesis, FSG)： 针对当前 MLLM 在立体几何代码生成上的短板，构建参数化模板库，生成复杂的立体几何图像及其对应代码。

质量控制： 采用三阶段过滤策略（图像质量、代码质量、图像 - 代码一致性），确保数据的高保真度。

2.2 两大代码感知任务 (Code-Grounded Tasks)

为了利用 ICC-1M 提升模型能力，设计了两个核心训练任务：

代码锚定的标题生成 (Code-Grounded Caption Generation)：
- 痛点： 直接看图写描述容易产生幻觉。
- 方案： 先生成描述草稿，然后利用可执行代码作为“事实核查器”。代码执行日志（Execution Tracer）提供精确的坐标、数量、颜色等事实信息，用于修正描述草稿中的错误。
- 公式： $t_{new} = G_{refine}(G_{caption}(x), G_{analyze}(c))$ ，其中 $c$ 是代码， $t_{new}$ 是修正后的高精度描述。
STEM 图像转代码翻译 (STEM Image-to-Code Translation)：
- 痛点： 自然语言描述模糊，无法精确指导重建。
- 方案： 训练模型直接从图像生成可执行的 Python 代码，并辅以解释性文本（Explanatory Code），说明代码逻辑与视觉元素的映射关系。
- 优势： 代码是确定性的，能强制模型理解精确的空间关系和数值。

2.3 训练策略

阶段 1：监督微调 (SFT)
- 在 ICC-1M 数据集上联合训练“图像转描述”和“图像转代码”两个任务。
- 利用自然语言提供语义上下文，利用代码提供精确的结构化细节，两者互补。
阶段 2：强化学习 (RL)
- 仅针对代码生成任务应用 GRPO（Group Relative Policy Optimization）。
- 奖励机制：
  - 格式奖励： 代码是否被正确包裹。
  - 内容奖励： 代码是否成功执行（Exec Rate）以及渲染图像与原始图像的相似度（Image Score）。
- 通过可执行的反馈信号，进一步优化模型的感知精度。

3. 新基准：STEM2Code-Eval

为了直接评估视觉感知能力，作者提出了 STEM2Code-Eval 基准。

定义： 包含 1000 张 STEM 图像，要求模型生成可执行的 Python 代码来**重建（Reconstruct）**原始图像。
评估指标：
1. Image Score： 渲染图像与原始图像的视觉相似度（由 Gemini 2.5 Pro 评估）。
2. Code Score： 代码本身的质量、结构和正确性（由 GPT-4o 评估）。
3. Exec Rate： 代码成功执行并生成图像的比例。
优势： 相比传统的“解题准确率”，该基准通过“能否完美重建图像”来衡量全面的视觉理解能力，排除了推理能力的干扰，提供了确定性和可验证的评估。

4. 实验结果 (Results)

4.1 感知能力评估 (STEM2Code-Eval)

显著超越基线： CodePercept 模型在图像重建任务上大幅超越了现有的 SOTA 模型。
- CodePercept-32B-R1 在综合得分上达到 75.80，显著高于 Qwen3-VL-32B (52.88) 和 Gemini 2.5-Pro-Thinking (78.67，但在执行率上 CodePercept 更高)。
- 即使是 CodePercept-8B-R1 (63.56) 也超越了参数量大得多的模型（如 Qwen2.5-VL-72B）。
RL 的增益： 强化学习阶段（R1）显著提升了代码的可执行性和重建精度。

4.2 推理辅助评估 (Caption-Solver Setup)

将 CodePercept 生成的描述输入给固定的推理模型（Solver），测试解题准确率。
结果： 使用 CodePercept 作为描述器（Captioner），在 MathVision, MathVista 等多个 STEM 基准上，解题准确率均有显著提升（例如 CodePercept-8B-S1 比基线提升约 3%）。
结论： 证明了更精准的感知（通过代码锚定）能直接转化为更强的推理表现。

4.3 消融实验

流水线验证： 图像复现、多样性生成、立体几何合成三个流水线均有效，其中多样性生成带来的提升最大。
代码锚定有效性： 相比直接生成的描述（NativeCap），基于代码修正的描述（CodeCap）显著减少了数值和空间关系的幻觉。
多模态互补： 同时训练“图像转描述”和“图像转代码”任务效果最好，证明两者互为补充。

5. 主要贡献与意义 (Contributions & Significance)

理论突破： 通过严谨的扩展分析，首次明确指出了感知能力是限制当前 MLLM 在 STEM 领域表现的主要瓶颈，而非推理能力。
范式创新： 提出了 Code-Grounded Perception 范式。利用可执行代码作为感知的“硬约束”和“事实锚点”，解决了自然语言描述在 STEM 领域的模糊性和幻觉问题。
资源贡献：
- ICC-1M： 首个大规模、高质量的 STEM 图像 - 描述 - 代码三元组数据集。
- STEM2Code-Eval： 首个直接通过“图像重建代码”来评估视觉感知能力的基准，填补了该领域评估的空白。
实际效果： 实验证明，通过代码增强的感知训练，不仅能显著提升图像重建能力，还能作为强大的中间表示，大幅提升模型在复杂 STEM 推理任务中的表现。

总结：
CodePercept 工作通过引入“代码”这一精确的中间模态，重新定义了 MLLM 的视觉感知训练方式。它表明，要让 AI 真正“看懂”科学图表，不能仅靠模糊的自然语言描述，而必须掌握能够精确复现视觉结构的可执行代码。这一发现为未来多模态大模型在科学计算和工程领域的应用提供了新的技术路径。