Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 Durian（榴莲） 的新方法，旨在让多模态大模型（既能看图又能思考的 AI）变得更聪明、推理能力更强。

为了让你轻松理解，我们可以把训练 AI 的过程想象成 给一群学生（AI 模型）上数学课，而这篇论文解决的是“老师如何公平地给学生打分”的问题。

1. 核心问题：为什么以前的“打分”方式会出错？

在传统的训练方法（GRPO）中，老师会一次性给同一个学生出 8 道类似的题目，然后看这 8 道题的得分情况来调整学生的策略。

以前的做法（标准差归一化）： 老师会计算这 8 道题分数的“波动范围”（标准差），然后据此给每道题打分。
- 场景 A（全对或全错）： 如果这 8 道题里，7 道全对，只有 1 道错了（或者反过来），分数的波动就极小。这时候，那个“唯一做错”的题，在计算权重时会被无限放大。就像全班 30 个人考了 99 分，只有小明考了 0 分，老师会认为小明的错误是“惊天动地”的，从而过度惩罚他，导致训练不稳定。
- 场景 B（多模态的难点）： 多模态模型不仅要“读题”（推理），还要“看图”（感知）。有些图很简单（比如一张白纸），有些图很复杂（比如一张充满噪点的几何图）。如果把这些“简单题”和“复杂题”混在一起算分，那些极端的简单或极难的题目会干扰正常的学习节奏。

比喻： 就像在跑步比赛中，如果大部分人都跑了 10 分钟，只有一个人跑了 1 分钟（极快）或 100 分钟（极慢），用平均速度来衡量每个人的表现，那个跑 100 分钟的人会被“惩罚”得过于严厉，而跑 10 分钟的人反而被忽视了。

2. 解决方案：Durian（榴莲）——“分门别类”的公平打分法

作者发现，问题的根源在于没有区分题目的难度。于是，他们提出了 Durian 方法。它的核心思想是：“把难度相似的学生（或题目）分在一组，组内单独算分。”

Durian 通过两个维度来判断一道题有多难：

维度一：看图的难度（感知难度）

比喻： 就像看一幅画。
- 简单： 画的是个红苹果，线条清晰，一眼就能看懂（低熵）。
- 困难： 画的是个复杂的几何迷宫，线条交错，颜色杂乱（高熵）。
做法： 系统会自动分析图片的“混乱程度”（视觉熵）。把“看苹果”的题分在一组，把“解迷宫”的题分在另一组。这样，看迷宫的学生不会因为没看懂苹果而受到不公正的“放大惩罚”。

维度二：思考的难度（推理难度）

比喻： 就像学生做题时的“自信心”。
- 简单： 学生一眼看出答案，心里很笃定（高置信度）。
- 困难： 学生犹豫不决，反复修改，心里没底（低置信度）。
做法： 系统会监测模型在生成答案时的“犹豫程度”。把“心里有底”的题分一组，把“心里没底”的题分一组。

3. Durian 是如何工作的？

分组（Sorting）： 在训练开始前，先把所有的题目按照“看图难不难”和“思考难不难”分成三个梯队：简单组、中等组、困难组。
组内打分（Group Normalization）：
- 在“简单组”里，大家互相比较，算出波动范围。
- 在“困难组”里，大家互相比较，算出波动范围。
- 关键点： 简单组的标准差和困难组的标准差是分开算的。
结果： 那个“唯一做错”的极端题目，现在只会在它自己的“困难组”里被评价，而不会去干扰“简单组”的分数。这就消除了极端样本带来的干扰，让训练过程像坐过山车一样平稳，而不是忽上忽下。

4. 为什么叫“榴莲”（Durian）？

虽然论文里没有明确解释名字的由来，但我们可以这样理解：

外表带刺（困难）： 榴莲外壳有很多刺，就像多模态推理中那些复杂的、容易出错的“极端样本”。
内在美味（价值）： 只要处理得当（分好组），榴莲就是美味。Durian 方法就像剥榴莲一样，把那些“带刺”的极端样本隔离开，只保留对模型成长最有价值的部分。

5. 实际效果如何？

作者在多个数学和视觉推理的考试（Benchmark）上测试了这种方法：

成绩提升： 相比之前的顶尖方法，Durian 让模型的平均成绩提升了 11.3%。
数据效率： 它甚至只用很少的训练数据（2100 道题），就达到了很多用几十万数据训练出来的模型的效果。
稳定性： 模型不再因为遇到几张特别难或特别简单的图就“发疯”或“摆烂”，学习过程更加稳健。

总结

这篇论文就像给 AI 训练场引入了一位聪明的班主任。
以前的班主任不管题目难易，一把尺子量到底，导致难题把简单题“带偏”，简单题把难题“拖垮”。
现在的 Durian 班主任，先把题目按难度分类，让“学霸组”和“学渣组”各自内部比拼。这样，每个人都能在适合自己的难度层级上得到公平的反馈，从而学得更快、更稳、更聪明。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：通过难度感知组归一化增强多模态大语言模型的推理能力

1. 研究背景与问题 (Problem)

背景：
基于可验证奖励的强化学习（RLVR）和组相对策略优化（GRPO）显著提升了大语言模型（LLM）和多模态大语言模型（MLLM）的推理能力。GRPO 通过在每组输出中计算奖励的标准差（std）进行归一化，从而稳定训练并放大组内正负样本的差异。

核心挑战：
将 GRPO 扩展到多模态场景时，面临一个关键问题：基于标准差（std）的归一化对“极端样本”高度敏感。

现象：在多模态推理任务中，由于感知复杂性（视觉输入）和推理不确定性（模型生成）的双重影响，容易出现奖励分布极端的样本组（即一组样本中几乎全对或几乎全错）。
后果：当组内奖励接近全 0 或全 1 时，标准差（std）会变得极小。这会导致归一化后的优势值（Advantage）被过度放大，使得优化过程过度关注这些极端样本，而忽略了奖励分布更平衡的中等难度样本，导致训练不稳定和性能下降。
现有方案局限：直接去除 std 项虽然能避免过拟合极端样本，但会丢失组内区分度，破坏 GRPO 的核心优势；增大 rollout 组大小虽能缓解，但计算成本过高。

2. 方法论 (Methodology)

作者提出了 Durian（Difficulty-Aware Group Normalization，难度感知组归一化）方法。其核心思想是根据样本难度重新分组，并在每个难度组内共享标准差，从而在保留组内区分度的同时消除对极端样本的敏感性。

2.1 难度定义与量化

Durian 从两个互补的视角定义样本难度：

感知难度 (Perceptual Difficulty)：
- 定义：基于图像本身的视觉复杂性。
- 量化方法：利用视觉编码器提取图像块（Patch）特征，计算协方差矩阵，并对特征值进行谱分析。通过计算特征值分布的香农熵 (Entropy) 来衡量视觉复杂度。熵越高，视觉模式越多样复杂，感知难度越大。
推理难度 (Reasoning Difficulty)：
- 定义：基于模型生成答案时的内在置信度。
- 量化方法：利用模型生成的 Token 级对数概率（log probabilities）。计算序列级的平均对数概率，概率越低表示模型对推理链的置信度越低，推理难度越高。

2.2 难度感知重分组策略

基于上述难度指标，Durian 将样本重新划分为不同的组（例如：低、中、高难度），并在每个组内独立计算标准差：

感知难度重分组：根据图像熵的分位数（如 25% 和 75%）将样本分为三组。组内样本共享同一个 std 进行归一化。
推理难度重分组：根据模型置信度的分位数将样本分组，组内共享 std。

2.3 优势融合

最终的优势值（Advantage）由三部分加权组合而成：
$A_{Combined} = \alpha_{Ori} \cdot A_{GRPO} + \alpha_{Percep} \cdot A_{Perceptual} + \alpha_{Reason} \cdot A_{Reasoning}$
这种设计既保留了原始 GRPO 的组内区分能力，又融合了数据复杂度和模型不确定性的信息，实现了更稳定的策略优化。

3. 关键贡献 (Key Contributions)

问题发现：首次明确指出并分析了 GRPO 在多模态场景下，因感知和推理双重因素导致的“极端样本”问题，以及由此引发的 std 归一化失效现象。
方法创新 (Durian)：提出了难度感知的重分组机制，通过解耦“感知难度”和“推理难度”，构建了更合理的样本分组策略，解决了极端样本主导优化的问题。
理论结合：将图像谱分析（熵）与模型置信度（对数概率）引入强化学习的优势计算中，为多模态 RL 提供了新的优化视角。
实证效果：在多个基准测试中，仅使用少量数据（2.1k）即取得了显著的性能提升，证明了方法的高效性。

4. 实验结果 (Results)

作者在多个多模态推理基准上进行了全面评估（包括 MathVerse, MathVision, MathVista, WeMath, HallusionBench）：

性能提升：基于 Qwen2.5-VL-7B 基座模型，Durian 相比原始 GRPO 和 DAPO 方法，在多个基准上取得了显著提升。
- 平均性能提升超过 11.3%。
- 在 MathVision 数据集上提升超过 16%。
数据效率：仅使用 2.1k 的训练样本（Geometry3K 数据集），性能即可超越许多使用数十万数据训练或经过复杂蒸馏的 SOTA 模型（如 R1-VL, Vision-R1 等）。
消融实验：
- 单独使用感知重分组或推理重分组均能带来性能提升。
- 两者结合（Durian）效果最佳，证明了两种难度视角的互补性。
鲁棒性：对超参数（如分组数量、权重系数）不敏感，在不同设置下表现稳定。
案例研究：在 HallusionBench 和 MathVision 等数据集的案例分析中，Durian 成功纠正了基线模型在视觉幻觉和几何推理上的错误，展示了更强的感知 grounding 和逻辑推理能力。

5. 意义与影响 (Significance)

解决多模态 RL 痛点：为多模态大模型在 RLVR 训练中的不稳定性问题提供了解决方案，特别是针对多模态输入特有的感知与推理耦合难题。
低成本高性能：证明了通过优化归一化策略（算法层面改进）而非单纯增加数据量，即可显著提升模型推理能力，为资源受限场景下的模型训练提供了新思路。
通用范式：提出的“基于样本难度对齐优化”的原则，不仅适用于 GRPO，也为未来多模态强化学习的稳定优化提供了通用的设计范式。

总结：Durian 通过引入难度感知机制，巧妙地解决了多模态 GRPO 训练中对极端样本敏感的问题，在不增加计算成本的前提下，显著提升了多模态大语言模型的推理能力和训练稳定性。

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization