Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

该论文通过揭示多模态思维链中感知 grounding 与探索推理的 token 级动态特征,提出了无需额外监督的感知 - 探索策略优化(PEPO)方法,利用隐藏状态相似性与 token 熵生成细粒度优势信号,显著提升了现有强化学习框架在多种视觉推理任务中的性能。

Yunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PEPO 的新方法,旨在让“多模态大模型”(既能看图又能读文的 AI)变得更聪明,特别是在做复杂的推理任务时(比如解几何题、看图找物体、玩视觉谜题)。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题

1. 以前的方法有什么问题?(“大锅饭”式的奖励)

想象一下,你教学生做一道几何题。学生写了一大段解题过程(思维链),最后算出了答案。

  • 旧方法(如 GRPO):如果答案对了,你就给整段过程发一个“大红花”(奖励);如果答案错了,就全盘否定。
  • 问题所在:这种方法太粗糙了。学生可能在解题的第一步就盯着图看对了(比如识别出三角形),但在中间步骤可能瞎猜了一个公式,最后运气好蒙对了答案。
    • 旧方法会认为:“既然答案对了,那每一步都做得好。”
    • 结果:学生没学会怎么真正看图,只是学会了怎么凑答案。或者,学生可能过度依赖文字逻辑,忽略了图片里的关键信息。

2. PEPO 的核心洞察:解题需要“两只手”

作者发现,成功的推理其实需要两种能力的配合,就像人的左手右手

  • 左手(感知/Perception):紧紧抓住图片里的线索。比如,看到图里有个直角,或者两条线相交。这是**“视觉锚点”**。
  • 右手(探索/Exploration):在不确定时大胆尝试不同的思路。比如,不知道用哪个公式时,多试几种可能性。这是**“思维跳跃”**。

以前的 AI 训练往往只盯着“答案对不对”,或者只盯着“文字写得是否流畅”,忽略了这两只手是如何配合的。

3. PEPO 是怎么做的?(“智能评分员”)

PEPO 就像是一个极其细致的智能评分员,它不再给整段话打一个总分,而是给每一个字(Token)单独打分

它通过两个指标来给每个字打分:

  1. 视觉相似度(Visual Similarity)
    • 比喻:这个字是不是在“盯着图片看”?
    • 如果模型在写“三角形 ABC"时,它的注意力紧紧锁在图片的三角形上,PEPO 就会给这个字高分。这鼓励模型多“看图”。
  2. 熵(Entropy/不确定性)
    • 比喻:这个字是不是在“犹豫”或“思考”?
    • 如果模型在写“也许我们可以用勾股定理”时,它其实是在探索多种可能性(不确定选哪个),PEPO 也会给这个字高分。这鼓励模型在关键节点多思考,而不是盲目自信。

PEPO 的魔法公式
它把这两个指标结合起来,用一个平滑的“开关”(门控机制)来决定:

  • 如果是看图的关键时刻,就重点奖励“视觉相似度”高的字。
  • 如果是思考的关键时刻,就重点奖励“探索性”高的字。
  • 最后,它根据这些精细的分数,重新调整模型学习的方向。

4. 效果如何?(“学霸”的诞生)

作者在各种考试(几何题、找物体、视觉谜题、少样本分类)中测试了 PEPO:

  • 更准:在几何题和逻辑题上,准确率比以前的方法(GRPO, DAPO)提高了不少。
  • 更稳:以前的方法有时候会因为只追求“探索”而乱跑,或者只追求“看图”而钻牛角尖。PEPO 让模型在“看图”和“思考”之间找到了完美的平衡。
  • 更省资源:它不需要给模型增加额外的“大脑”(辅助分支),也不需要老师额外教它(不需要额外监督),只是巧妙地利用了模型内部已有的信息。

5. 总结:一个生动的比喻

如果把训练 AI 比作教一个盲人(只懂文字)和一个色盲(只懂图片)合作解题

  • 以前的方法:只要最后答案对了,就奖励两个人。结果盲人可能根本没看路,色盲可能根本没思考,全靠运气蒙对。
  • PEPO 方法
    • 当盲人(文字部分)在描述图片里的物体时,PEPO 会检查他是否真的“看”到了(视觉相似度),如果看准了,大力表扬。
    • 当色盲(逻辑部分)在犹豫下一步怎么走时,PEPO 会鼓励这种“犹豫和探索”,因为这是思考的过程。
    • 通过这种精细的、颗粒度极细的奖励,PEPO 教会了 AI 如何一边看图,一边思考,最终成为了真正的“全能解题高手”。

一句话总结:PEPO 让 AI 在解题时,不再只是机械地背诵答案,而是学会了**“眼到(看图)、心到(思考)”**,从而在复杂的视觉推理任务中表现得更加出色。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →