Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

本文针对多模态大模型在强化学习中因极端样本导致标准差归一化不稳定的问题,提出了一种基于视觉熵和模型置信度定义样本难度的“困难感知组归一化”(Durian)方法,通过按难度重分组并共享组内标准差,有效消除了极端值干扰并显著提升了多模态推理性能。

Jinghan Li, Junfeng Fang, Jinda Lu, Yuan Wang, Xiaoyan Guo, Tianyu Zhang, Xiang Wang, Xiangnan He

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 Durian(榴莲) 的新方法,旨在让多模态大模型(既能看图又能思考的 AI)变得更聪明、推理能力更强。

为了让你轻松理解,我们可以把训练 AI 的过程想象成 给一群学生(AI 模型)上数学课,而这篇论文解决的是“老师如何公平地给学生打分”的问题。

1. 核心问题:为什么以前的“打分”方式会出错?

在传统的训练方法(GRPO)中,老师会一次性给同一个学生出 8 道类似的题目,然后看这 8 道题的得分情况来调整学生的策略。

  • 以前的做法(标准差归一化): 老师会计算这 8 道题分数的“波动范围”(标准差),然后据此给每道题打分。
    • 场景 A(全对或全错): 如果这 8 道题里,7 道全对,只有 1 道错了(或者反过来),分数的波动就极小。这时候,那个“唯一做错”的题,在计算权重时会被无限放大。就像全班 30 个人考了 99 分,只有小明考了 0 分,老师会认为小明的错误是“惊天动地”的,从而过度惩罚他,导致训练不稳定。
    • 场景 B(多模态的难点): 多模态模型不仅要“读题”(推理),还要“看图”(感知)。有些图很简单(比如一张白纸),有些图很复杂(比如一张充满噪点的几何图)。如果把这些“简单题”和“复杂题”混在一起算分,那些极端的简单或极难的题目会干扰正常的学习节奏。

比喻: 就像在跑步比赛中,如果大部分人都跑了 10 分钟,只有一个人跑了 1 分钟(极快)或 100 分钟(极慢),用平均速度来衡量每个人的表现,那个跑 100 分钟的人会被“惩罚”得过于严厉,而跑 10 分钟的人反而被忽视了。

2. 解决方案:Durian(榴莲)——“分门别类”的公平打分法

作者发现,问题的根源在于没有区分题目的难度。于是,他们提出了 Durian 方法。它的核心思想是:“把难度相似的学生(或题目)分在一组,组内单独算分。”

Durian 通过两个维度来判断一道题有多难:

维度一:看图的难度(感知难度)

  • 比喻: 就像看一幅画。
    • 简单: 画的是个红苹果,线条清晰,一眼就能看懂(低熵)。
    • 困难: 画的是个复杂的几何迷宫,线条交错,颜色杂乱(高熵)。
  • 做法: 系统会自动分析图片的“混乱程度”(视觉熵)。把“看苹果”的题分在一组,把“解迷宫”的题分在另一组。这样,看迷宫的学生不会因为没看懂苹果而受到不公正的“放大惩罚”。

维度二:思考的难度(推理难度)

  • 比喻: 就像学生做题时的“自信心”。
    • 简单: 学生一眼看出答案,心里很笃定(高置信度)。
    • 困难: 学生犹豫不决,反复修改,心里没底(低置信度)。
  • 做法: 系统会监测模型在生成答案时的“犹豫程度”。把“心里有底”的题分一组,把“心里没底”的题分一组。

3. Durian 是如何工作的?

  1. 分组(Sorting): 在训练开始前,先把所有的题目按照“看图难不难”和“思考难不难”分成三个梯队:简单组、中等组、困难组。
  2. 组内打分(Group Normalization):
    • 在“简单组”里,大家互相比较,算出波动范围。
    • 在“困难组”里,大家互相比较,算出波动范围。
    • 关键点: 简单组的标准差和困难组的标准差是分开算的。
  3. 结果: 那个“唯一做错”的极端题目,现在只会在它自己的“困难组”里被评价,而不会去干扰“简单组”的分数。这就消除了极端样本带来的干扰,让训练过程像坐过山车一样平稳,而不是忽上忽下。

4. 为什么叫“榴莲”(Durian)?

虽然论文里没有明确解释名字的由来,但我们可以这样理解:

  • 外表带刺(困难): 榴莲外壳有很多刺,就像多模态推理中那些复杂的、容易出错的“极端样本”。
  • 内在美味(价值): 只要处理得当(分好组),榴莲就是美味。Durian 方法就像剥榴莲一样,把那些“带刺”的极端样本隔离开,只保留对模型成长最有价值的部分。

5. 实际效果如何?

作者在多个数学和视觉推理的考试(Benchmark)上测试了这种方法:

  • 成绩提升: 相比之前的顶尖方法,Durian 让模型的平均成绩提升了 11.3%
  • 数据效率: 它甚至只用很少的训练数据(2100 道题),就达到了很多用几十万数据训练出来的模型的效果。
  • 稳定性: 模型不再因为遇到几张特别难或特别简单的图就“发疯”或“摆烂”,学习过程更加稳健。

总结

这篇论文就像给 AI 训练场引入了一位聪明的班主任
以前的班主任不管题目难易,一把尺子量到底,导致难题把简单题“带偏”,简单题把难题“拖垮”。
现在的 Durian 班主任,先把题目按难度分类,让“学霸组”和“学渣组”各自内部比拼。这样,每个人都能在适合自己的难度层级上得到公平的反馈,从而学得更快、更稳、更聪明。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →