SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

本文提出了 SGG-R³ 框架,通过结合任务特定的思维链引导监督微调与基于组序列策略优化的强化学习,利用关系增强策略和双粒度奖励机制,有效解决了场景图生成中的稀疏性、长尾分布及偏差问题,实现了端到端的无偏场景图生成。

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SGG-R3 的新方法,旨在让 AI 更聪明、更公正地理解图片中的世界。

为了让你轻松理解,我们可以把场景图生成(Scene Graph Generation)想象成让 AI 当一名“现场侦探”。它的任务是看一张照片,然后写出一份详细的报告,列出照片里有什么东西(物体),以及这些东西之间有什么关系(比如“猫在沙发上”、“人拿着杯子”)。

以前的 AI 侦探有两个大问题:

  1. 只会死记硬背:如果照片里有一只罕见的动物,或者一个很少见的动作(比如“人骑着长颈鹿”),AI 就懵了,因为它在训练数据里没见过。
  2. 有偏见:AI 总是倾向于猜最常见的关系。比如看到人和狗,它只会猜“人牵着狗”,却猜不到“人给狗梳毛”这种虽然少见但真实存在的关系。

SGG-R3 就是为了解决这些问题而生的“超级侦探训练计划”。 它通过三个核心步骤(也就是标题里的 R3)来升级 AI:

1. 关系增强 (Relation Augmentation) —— “给侦探看更多样化的案例”

  • 问题:现实世界的关系千奇百怪,但训练数据里很多关系(比如“人坐在长椅上”)很少,导致 AI 学不会。
  • 比喻:就像教学生做题,如果只给 10 道简单的“加减法”,学生遇到复杂的“应用题”就傻眼了。
  • 做法:作者利用一个更强大的 AI(Qwen2.5-VL)作为“助教”,帮主 AI 生成大量合理的、但原数据里没有的新关系案例。
  • 过滤机制:为了防止“助教”胡说八道(比如生成“猫在飞”这种不合理的),他们用一个“过滤器”(基于语义相似度)把那些离谱的答案筛掉,只留下高质量的“新案例”给主 AI 学习。这样,AI 就见识了更多样化的世界。

2. 结构化推理 (Structured Reasoning) —— “让侦探按步骤思考”

  • 问题:以前的 AI 像是一个急脾气的学生,看到图就想直接猜答案,结果经常张冠李戴,或者漏掉很多细节。
  • 比喻:这就好比让一个侦探直接喊出“凶手是隔壁老王”,而不经过调查。SGG-R3 要求 AI 必须按部就班地思考,不能跳步。
  • 做法:他们设计了一套**“三步走”**的思维链(Chain of Thought):
    1. 第一步(找类别):先别急着找具体是谁,先确定图里有哪些种类的东西(比如:有“人”、有“车”、有“树”)。
    2. 第二步(找实例):确定了种类后,再一个个把具体的个体找出来并框定位置(比如:这是“人 1",那是“人 2")。
    3. 第三步(找关系):最后,基于前面找好的具体个体,去分析它们之间发生了什么(比如:“人 1"正在“推”“车 1")。
  • 效果:这种“先分类、再定位、后推理”的顺序,大大减少了 AI 的幻觉(胡说八道),让它能更准确地描述复杂的场景。

3. 奖励对齐 (Reward Alignment) —— “给侦探发‘聪明奖’"

  • 问题:在训练过程中,AI 如果只猜那些常见的关系(比如“在...上面”),很容易得分,但这样它就学不会猜那些罕见的关系(长尾分布问题)。
  • 比喻:就像老师批改作业,如果学生只写“苹果是红色的”就能得满分,那学生永远不会去写“苹果是青色的”或者“苹果是紫色的”。
  • 做法:作者设计了一种**“双重奖励机制”**:
    • 精细奖励:如果 AI 猜中了那些很少见的关系(比如“人骑着长颈鹿”),就给它加倍的奖励。这就像告诉 AI:“猜对冷门题,分数更高!”
    • 粗略奖励:即使 AI 没猜中完全一样的词,但如果它猜出的意思和正确答案很像(比如猜“人靠着树”而不是“人靠着树干”),也给予一定的奖励。这鼓励 AI 去探索更多可能性,而不是死记硬背。

总结:SGG-R3 的厉害之处

通过这套组合拳,SGG-R3 让 AI 从一个“只会背标准答案的复读机”,变成了一个“懂得逻辑推理、能发现冷门细节、且没有偏见的侦探”。

  • 更准:在测试中,它能更准确地找出图片里的物体和它们的位置。
  • 更全:它能发现更多以前被忽略的、少见但真实存在的关系。
  • 更公平:它不再只盯着最常见的关系看,而是能平等地对待各种复杂的场景。

简单来说,就是让 AI 学会像人类一样,先观察、再思考、最后公正地描述世界,而不是凭直觉瞎猜。