SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

本文提出了 SpatialReward,一种通过显式空间推理和像素级证据锚定来解决在线强化学习中“注意力坍塌”感知差距的奖励模型,该模型在多个基准测试中达到最先进水平,并显著提升了图像编辑模型 OmniGen2 的性能。

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让 AI 更聪明地修图”**的故事。

想象一下,你有一个非常厉害的 AI 画师(比如 OmniGen2),它很听指令,你说“把衣服换成丝绸”,它就能换。但是,有时候它换得太过了,把人的脸也变了,或者把背景弄乱了,而它自己却觉得“我做得完美无缺”。

这就是论文里提到的核心问题:AI 修图时,缺乏一个能“火眼金睛”的裁判。

1. 痛点:AI 裁判的“近视眼”病(Attention Collapse)

以前的 AI 裁判(Reward Model)就像是一个**“近视眼裁判”**。

  • 现象:当你把“原图”和“修好图”给它看时,它往往只盯着“修好图”看,觉得“哇,这张图真漂亮,衣服确实是丝绸的”,然后直接打高分。
  • 问题:它完全忘了看原图!它没发现,虽然衣服变成了丝绸,但原本那个人的姿势变了,或者背景里的树被误删了。
  • 后果:这种“管中窥豹”的裁判会误导 AI 画师,让它以为只要把指令里的东西改好就行,不用管其他东西,结果导致修图越来越离谱(比如把人的脸修歪了)。论文把这种现象称为**“注意力崩塌” (Attention Collapse)**。

2. 解决方案:SpatialReward —— 给裁判戴上“定位器”

为了解决这个问题,作者们开发了一个新裁判,叫 SpatialReward。它的核心绝招是:“先圈地,再说话” (Think-with-Boxes)

这就好比让裁判在检查作业前,必须先拿出红笔,在试卷上圈出哪里改了,哪里没改。

  • 步骤一(圈地):裁判先不看整体,而是先预测:“哦,指令说换衣服,那我把‘衣服’这个区域圈出来;指令说去掉帽子,那我把‘帽子’的位置圈出来。”
  • 步骤二(对比):裁判拿着圈出来的框,强制自己去对比“原图”和“新图”的对应区域。
    • 比如:它看着圈出来的“衣服”区域,对比原图,确认“嗯,布料确实变了”。
    • 再比如:它看着圈出来的“人脸”区域(虽然指令没说要动脸),对比原图,发现“哎呀,脸怎么歪了?这是没被指令要求的改动,是扣分项!”
  • 步骤三(打分):基于这种**“点对点”的精确对比**,裁判给出一个非常精准的分數。

比喻
以前的裁判像是一个走马观花的游客,只看新图美不美;
现在的 SpatialReward 像是一个拿着放大镜的质检员,拿着图纸(原图),拿着红笔(框),一个零件一个零件地核对,哪里改对了,哪里改错了,一目了然。

3. 训练过程:从“死记硬背”到“实战演练”

为了让这个裁判学会这种“圈地对比”的本领,作者们做了两件事:

  1. 造了一本“错题集” (SpatialReward-260K)
    他们收集了 26 万张图,让超级 AI(像 GPT-5 这种)先当老师,教裁判怎么圈地、怎么对比。这就像给裁判做了一套专门的“找茬”特训教材。
  2. 实战演练 (Online RL)
    光看书不行,还得实战。作者把这个新裁判放进 AI 画师的训练场里。
    • 画师试着修图。
    • 裁判拿着“红笔框”去检查。
    • 如果画师把背景弄坏了,裁判会严厉扣分(“这里没让你动,你动什么?”)。
    • 画师根据裁判的反馈,不断调整,直到学会**“只改该改的,保住不该动的”**。

4. 成果:画师变强了,裁判也变强了

实验结果非常惊人:

  • 裁判更准了:在各项修图评测榜单上,SpatialReward 的表现超过了目前最顶尖的闭源模型(如 GPT-4.1, GPT-5)和其他开源模型。它不再“瞎指挥”了。
  • 画师更强了:当用这个新裁判来训练 AI 画师(OmniGen2)时,画师的修图水平突飞猛进
    • 以前用旧裁判训练,画师进步一点点。
    • 用 SpatialReward 训练,画师的进步幅度是旧方法的两倍,甚至超过了直接用 GPT-4 当裁判的效果。

总结

这篇论文的核心思想就是:AI 修图不能只靠“感觉”,必须靠“空间定位”和“精确对比”。

通过给 AI 裁判装上“红笔框”(显式的空间推理),强迫它去对比原图和修图后的细节,我们成功解决了 AI“顾头不顾尾”的毛病。这不仅让裁判更公平,也让 AI 画师真正学会了如何**“精准、克制”**地修改图片,既完成了任务,又保留了原本的美好。

一句话概括
SpatialReward 就像给 AI 配了一副“对比眼镜”和一把“定位尺”,让它修图时不再“瞎改”,而是“指哪打哪,寸土必争”。