GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

本文提出了 GoT-R1 框架,通过强化学习和双阶段多维奖励机制增强多模态大模型的语义空间推理能力,从而显著提升了复杂文本提示下图像生成的空间关系准确性与属性绑定效果。

原作者: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GoT-R1 的新系统,它的目标是让 AI 画图画得更聪明、更听话,特别是当你的要求很复杂的时候。

为了让你轻松理解,我们可以把 AI 画画的过程想象成**“一位画家接单作画”**的故事。

1. 以前的痛点:画家“听而不思”

想象一下,你是一位客户,你给画家(AI)一个很复杂的订单:

“请在画面的左边画一只红色的蝴蝶,在右边画一根蓝色的蜡烛,蝴蝶的翅膀要有花纹。”

  • 以前的 AI(普通画家): 它听到“蝴蝶”和“蜡烛”,脑子里直接开始调色、下笔。但它往往没想清楚谁在左、谁在右。结果画出来可能是蝴蝶和蜡烛挤在一起,或者蝴蝶变成了绿色的。它就像是一个只会凭直觉乱画的画家,虽然画得挺像样,但逻辑混乱
  • 之前的改进版(GoT): 为了解决这个问题,之前的研究让画家在动笔前,先写一份“构思草稿”(Chain-of-Thought)。
    • 草稿内容: “先画蜡烛在 (392, 116) 位置,再画蝴蝶在 (240, 38) 位置,蝴蝶在蜡烛左边……"
    • 问题: 这个“草稿”是死记硬背的。就像学生背范文,不管题目怎么变,他都套用固定的格式。有时候,他写的草稿虽然格式完美,但内容其实是错的(比如草稿说蝴蝶在左边,结果画的时候又忘了),导致画出来的图还是不对。

2. GoT-R1 的突破:让画家学会“自我反思”和“试错”

GoT-R1 的核心创新在于引入了强化学习(Reinforcement Learning)。这就像是给画家请了一位**“超级严厉的导师”,并且让画家通过“自己试错”**来变强。

核心比喻:从“背模板”到“开盲盒 + 打分”

以前的训练是老师直接告诉学生:“你要这样写草稿,这样画”。
GoT-R1 的训练方式是:

  1. 多试几次(采样): 面对同一个题目,让画家尝试画出16 种不同的“构思草稿”和16 幅不同的画。
  2. 超级导师打分(MLLM 奖励模型): 这里有一个“超级导师”(一个非常聪明的多模态大模型),它不是只看最后画得像不像,而是分两步给这 16 份作业打分:
    • 第一步(检查草稿): 你的“构思草稿”写得对吗?
      • 语义分: 草稿里有没有漏掉“红色”?有没有把“蝴蝶”写成“蜜蜂”?
      • 空间分(创新点): 草稿里说“蝴蝶在左”,它真的在左边吗?(为了更准,导师甚至把草稿里的坐标画成可视化的框,像看地图一样去检查,而不是只读文字)。
    • 第二步(检查成品): 最后的画符合草稿吗?符合你的要求吗?
  3. 优胜劣汰(GRPO 算法): 导师发现,第 3 号草稿写得最对,第 3 号画得最好。于是,它给第 3 号作业发奖金(高奖励),给第 1 号作业批评(低奖励)。
  4. 自我进化: 画家根据这些反馈,调整自己的“大脑”(模型参数)。下次再遇到类似题目,它就知道:“哦,原来那种写法能拿高分,我要多学学那种写法!”

关键点: 画家不再死记硬背模板,而是通过不断的“尝试 - 被打分 - 改进”,自己摸索出了最聪明的画画策略。

3. 为什么这个系统很厉害?

论文里用了几个很形象的比喻来解释它的奖励机制(Reward System):

  • 全链路监督(Dual-Stage Reward):
    以前的系统只关心“画得像不像”。GoT-R1 关心全过程

    • 的(Prompt)和的(Reasoning)对不对?
    • 的(Reasoning)和的(Image)对不对?
    • 的(Prompt)和的(Image)对不对?
      这就像不仅检查学生最后交卷的答案,还要检查他的解题步骤草稿纸。如果草稿写错了,哪怕最后答案蒙对了,也要扣分。
  • 可视化的空间检查:
    大模型有时候对文字里的坐标(比如 x=100, y=200)很笨,分不清左右。GoT-R1 很聪明,它把坐标画成框,让导师“看图说话”。这就好比让老师看一张标注了位置的地图,而不是看一串枯燥的数字,判断起来准多了。

4. 结果如何?

实验证明,经过这种“自我反思”训练的 GoT-R1:

  • 更听话: 当你说“把红色的苹果放在蓝色的杯子左边”时,它真的能画对,而不是胡乱摆放。
  • 更灵活: 它能处理以前 AI 搞不定的复杂场景(比如多个物体、复杂的属性绑定)。
  • 更聪明: 它自己发现的“解题思路”(Reasoning Chain),比人类老师预设的模板还要好。

总结

GoT-R1 就像是把一位只会死记硬背的“临摹画家”,通过强化学习多维度的严格打分,培养成了一位懂得逻辑推理、能自主规划的“大师级画家”。它不再只是机械地执行指令,而是真正理解了你的意图,并一步步推理出如何完美地实现它。

这项技术让 AI 生成的图像在逻辑性精准度上迈上了一个新台阶,未来我们让 AI 画更复杂、更有趣的场景将变得非常容易。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →