SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让 AI 更聪明地修图”**的故事。

想象一下，你有一个非常厉害的 AI 画师（比如 OmniGen2），它很听指令，你说“把衣服换成丝绸”，它就能换。但是，有时候它换得太过了，把人的脸也变了，或者把背景弄乱了，而它自己却觉得“我做得完美无缺”。

这就是论文里提到的核心问题：AI 修图时，缺乏一个能“火眼金睛”的裁判。

1. 痛点：AI 裁判的“近视眼”病（Attention Collapse）

以前的 AI 裁判（Reward Model）就像是一个**“近视眼裁判”**。

现象：当你把“原图”和“修好图”给它看时，它往往只盯着“修好图”看，觉得“哇，这张图真漂亮，衣服确实是丝绸的”，然后直接打高分。
问题：它完全忘了看原图！它没发现，虽然衣服变成了丝绸，但原本那个人的姿势变了，或者背景里的树被误删了。
后果：这种“管中窥豹”的裁判会误导 AI 画师，让它以为只要把指令里的东西改好就行，不用管其他东西，结果导致修图越来越离谱（比如把人的脸修歪了）。论文把这种现象称为**“注意力崩塌” (Attention Collapse)**。

2. 解决方案：SpatialReward —— 给裁判戴上“定位器”

为了解决这个问题，作者们开发了一个新裁判，叫 SpatialReward。它的核心绝招是：“先圈地，再说话” (Think-with-Boxes)。

这就好比让裁判在检查作业前，必须先拿出红笔，在试卷上圈出哪里改了，哪里没改。

步骤一（圈地）：裁判先不看整体，而是先预测：“哦，指令说换衣服，那我把‘衣服’这个区域圈出来；指令说去掉帽子，那我把‘帽子’的位置圈出来。”
步骤二（对比）：裁判拿着圈出来的框，强制自己去对比“原图”和“新图”的对应区域。
- 比如：它看着圈出来的“衣服”区域，对比原图，确认“嗯，布料确实变了”。
- 再比如：它看着圈出来的“人脸”区域（虽然指令没说要动脸），对比原图，发现“哎呀，脸怎么歪了？这是没被指令要求的改动，是扣分项！”
步骤三（打分）：基于这种**“点对点”的精确对比**，裁判给出一个非常精准的分數。

比喻：
以前的裁判像是一个走马观花的游客，只看新图美不美；
现在的 SpatialReward 像是一个拿着放大镜的质检员，拿着图纸（原图），拿着红笔（框），一个零件一个零件地核对，哪里改对了，哪里改错了，一目了然。

3. 训练过程：从“死记硬背”到“实战演练”

为了让这个裁判学会这种“圈地对比”的本领，作者们做了两件事：

造了一本“错题集” (SpatialReward-260K)：
他们收集了 26 万张图，让超级 AI（像 GPT-5 这种）先当老师，教裁判怎么圈地、怎么对比。这就像给裁判做了一套专门的“找茬”特训教材。
实战演练 (Online RL)：
光看书不行，还得实战。作者把这个新裁判放进 AI 画师的训练场里。
- 画师试着修图。
- 裁判拿着“红笔框”去检查。
- 如果画师把背景弄坏了，裁判会严厉扣分（“这里没让你动，你动什么？”）。
- 画师根据裁判的反馈，不断调整，直到学会**“只改该改的，保住不该动的”**。

4. 成果：画师变强了，裁判也变强了

实验结果非常惊人：

裁判更准了：在各项修图评测榜单上，SpatialReward 的表现超过了目前最顶尖的闭源模型（如 GPT-4.1, GPT-5）和其他开源模型。它不再“瞎指挥”了。
画师更强了：当用这个新裁判来训练 AI 画师（OmniGen2）时，画师的修图水平突飞猛进。
- 以前用旧裁判训练，画师进步一点点。
- 用 SpatialReward 训练，画师的进步幅度是旧方法的两倍，甚至超过了直接用 GPT-4 当裁判的效果。

总结

这篇论文的核心思想就是：AI 修图不能只靠“感觉”，必须靠“空间定位”和“精确对比”。

通过给 AI 裁判装上“红笔框”（显式的空间推理），强迫它去对比原图和修图后的细节，我们成功解决了 AI“顾头不顾尾”的毛病。这不仅让裁判更公平，也让 AI 画师真正学会了如何**“精准、克制”**地修改图片，既完成了任务，又保留了原本的美好。

一句话概括：
SpatialReward 就像给 AI 配了一副“对比眼镜”和一把“定位尺”，让它修图时不再“瞎改”，而是“指哪打哪，寸土必争”。

Each language version is independently generated for its own context, not a direct translation.

以下是基于论文《SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning》的详细技术总结：

1. 研究背景与核心问题 (Problem)

背景：
基于指令的图像编辑（Instruction-guided Image Editing）正在快速发展，从简单的风格迁移转向复杂场景的精确编辑。在线强化学习（Online RL）被视为提升编辑模型对齐人类偏好、处理长尾和组合性任务的关键范式。然而，现有的 RL 训练严重依赖高质量、细粒度的奖励信号。

核心问题：感知差距与“注意力坍塌” (Perception Gap & Attention Collapse)
现有的图像编辑评估器（Reward Models）存在一个致命的缺陷，作者将其称为**“注意力坍塌” (Attention Collapse)**：

现象： 模型在评估编辑质量时，往往忽略源图像（Source Image）与编辑后图像（Edited Image）之间的跨图像对比。
后果： 模型倾向于对单张编辑后的图像进行“盲目判断”，导致无法捕捉细微的伪影、结构破坏或不一致的风格变化。例如，模型可能认为“布料变成了丝绸”是成功的，却忽略了人物姿势或背景颜色的意外改变。
原因： 现有的生成式评估模型（如 EditScore）缺乏显式的空间引导，导致注意力机制无法锚定到具体的编辑区域，从而在推理过程中丢失了源图像的上下文信息。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 SpatialReward，这是首个将显式空间推理（Explicit Spatial Reasoning）整合到图像编辑生成式点评估（Pointwise Evaluation）中的框架。

2.1 核心架构："Think-with-Boxes" (带框思考)

SpatialReward 采用了一种两阶段的推理机制，强制模型先定位再评估：

定位 (Localization)： 模型首先预测与编辑操作相关的边界框（Bounding Boxes, $B$ ），明确指示“在哪里”发生了编辑。
锚定验证 (Anchored Verification)： 在生成推理文本（ $T$ ）时，模型使用特殊的 Token（如 <|bbox_id|>）引用上述边界框。这迫使模型在描述编辑结果时，必须“回看”具体的像素区域，进行源图像与编辑后图像的交叉验证。
评分 (Scoring)： 基于验证结果输出细粒度的分数（ $s$ ），包括语义一致性（Instruction Following, Source Consistency）和感知质量（Naturalness, Artifacts）。

2.2 数据构建：SpatialReward-260K

为了训练该模型，作者构建了一个包含 26 万样本的高质量数据集：

空间先引导管道 (Spatial-Prior-Guided Pipeline)：
- 步骤 1 (空间 grounding)： 使用强大的 VLM (Qwen-3-VL) 为所有样本生成编辑区域的边界框。
- 步骤 2 (专家路由)： 根据编辑类型（人脸 vs. 通用物体）路由到不同的专家模型（Gemini-2.5-Pro 或 GPT-5）生成初步的推理和分数。
- 步骤 3 (对齐与验证)： 将生成的推理与边界框进行一致性检查，剔除幻觉（Hallucination），并将推理重写为包含边界框引用的交错格式。
数据组成： 包含清洗后的 EditScore 数据、重构的 EditReward 数据以及新构建的 Multi-Edit 数据集。

2.3 训练策略：两阶段训练

监督微调 (SFT)： 在 260k 合成数据上微调 Qwen-3-VL-8B 基座模型，学习结构化输出 $(B, T, s)$ 。
在线一致性强化学习 (Online Consistency RL)： 使用 GRPO (Group Relative Policy Optimization) 算法。利用 Gemini-3.0-Flash 作为在线监督器（Oracle），对 SFT 模型生成的推理和分数进行一致性打分，通过强化学习进一步抑制幻觉并提升评分的准确性。

2.4 奖励聚合策略

采用加权几何平均（Weighted Geometric Mean）来聚合语义一致性（SC）和感知质量（PQ）分数。这种策略既能捕捉多维度的信息，又能对“短板”（如严重的源一致性破坏）施加严厉惩罚，避免了算术平均的平滑效应。

3. 关键贡献 (Key Contributions)

发现并定义“感知差距”： 首次明确指出 MLLM 评估器在图像编辑任务中因缺乏空间锚点而导致的“注意力坍塌”现象，并证明了显式空间 grounding 是解决该问题的关键。
提出 SpatialReward 框架： 首创将显式空间推理（预测边界框并锚定推理）引入生成式点评估，显著提升了评估的细粒度准确性。
构建 SPATIALREWARD-260K 数据集： 提供了一个包含高质量空间推理轨迹的大规模数据集，支持模型学习“先定位后验证”的思维链。
发布 MultiEditReward-Bench (MER-Bench)： 构建了一个包含复杂多区域组合编辑任务的基准测试，专门用于挑战奖励模型的空间感知和验证能力。
显著提升在线 RL 效果： 证明了 SpatialReward 作为 RL 信号的有效性，大幅提升了下游编辑模型（OmniGen2）的性能。

4. 实验结果 (Results)

4.1 奖励基准测试表现

在三个主要基准测试中，SpatialReward (8B) 均取得了 SOTA 性能：

EditReward-Bench: 相比生成式基线 EditScore-8B 提升 +11.3% (0.803 vs 0.690)。
MMRB2: 提升 +9.1%，且在多图像子集上表现出极强的跨图像泛化能力。
MER-Bench (复杂任务): 在最具挑战性的 4 对比较设置中，准确率达到 21.5%，超越了 GPT-5 (19.5%) 和 Gemini-3.0-Flash (19.5%)，证明了其在复杂多约束推理下的鲁棒性。
对比专有模型： 在综合指标上超越了 GPT-4.1、GPT-5 等闭源模型。

4.2 在线 RL 应用效果

将 SpatialReward 作为奖励信号用于 OmniGen2 的在线 RL 训练（Flow-GRPO）：

GEdit-Bench 提升： OmniGen2 的得分提升了 +0.90，这一增益几乎是 GPT-4.1 作为奖励信号时增益（+0.45）的两倍。
定性分析： 相比 EditReward（判别式模型），SpatialReward 能有效防止内容漂移（Content Drift）。EditReward 训练的模型往往过度修改未指示区域，而 SpatialReward 能保持源图像的一致性，同时精准执行编辑指令。
效率： 得益于 vLLM 的优化，SpatialReward 的推理速度比 EditReward 快 1.5 倍。

4.3 注意力机制分析

定量分析显示，Baseline 模型存在明显的注意力坍塌（源图像熵低，注意力集中在 Sink Token），而 SpatialReward 通过“带框思考”机制，恢复了源图像的高熵分布，实现了有效的跨图像参考。

5. 意义与结论 (Significance & Conclusion)

理论意义： 该工作揭示了在图像编辑评估中，显式空间推理对于弥合感知差距的重要性。它证明了仅仅依靠文本推理是不够的，必须将推理过程锚定在具体的像素空间区域上。
实践价值： SpatialReward 提供了一个高效、可解释且高精度的奖励信号，解决了在线 RL 在图像编辑领域落地难的问题（缺乏可靠奖励）。
未来方向： 该方法论不仅适用于图像编辑，也为其他需要细粒度视觉验证和跨图像对比的多模态任务提供了新的范式。

总结： SpatialReward 通过引入“先定位、后验证”的显式空间推理机制，成功解决了现有评估器在图像编辑任务中的“注意力坍塌”问题，显著提升了评估精度，并极大地推动了在线强化学习在图像编辑领域的性能突破。