Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

本文提出了视觉偏好策略优化(ViPO),这是一种将标量奖励转化为像素级结构化优势图的 GRPO 变体,通过利用预训练视觉骨干网络构建时空感知优势图,有效解决了现有方法忽略视觉内容细粒度结构的问题,从而在图像和视频生成任务中显著提升了与人类偏好的对齐度及泛化能力。

Ziqi Ni, Yuanzhi Liang, Rui Li, Yi Zhou, Haibin Huang, Chi Zhang, Xuelong Li

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ViPO(视觉偏好策略优化)的新技术,它能让 AI 生成的图片和视频变得更漂亮、更符合人类的审美。

为了让你轻松理解,我们可以把 AI 生成图片的过程想象成一位正在学画画的“新手画家”,而人类就是挑剔的“艺术评论家”

1. 以前的问题:只有“总分”,没有“评语”

在 ViPO 出现之前,AI 学习画画的方法(叫 GRPO)是这样的:

  • 场景:AI 画了一幅画(比如“一个在窗台上睡觉的猫”)。
  • 反馈:评论家(奖励模型)看完后,只给这幅画打一个总分(比如 80 分)。
  • 问题:这个分数是笼统的。它告诉 AI“你画得不错”,但没说哪里画得好,哪里画得烂。
    • 也许猫的毛画得很逼真,但窗户的栏杆画歪了,背景还有一团乱麻。
    • 因为只有一个总分,AI 在修改时就像盲人摸象:它不知道是该把精力花在修正栏杆上,还是该把猫画得更蓬松。结果就是,它可能把栏杆修好了,却把猫画歪了;或者为了提升整体分数,把原本画得好的地方也改坏了。

这就好比老师批改作文,只写个“优”或“良”,却不圈出哪个错别字要改,哪个句子写得太啰嗦。学生很难进步。

2. ViPO 的解决方案:给每个像素都发“小纸条”

ViPO 的核心思想是:别只给总分,要告诉 AI 哪里该用力,哪里该休息。

  • 新机制:ViPO 给 AI 配备了一位**“视觉结构大师”**(论文里叫 PSM 模块)。
  • 工作原理
    1. 当 AI 画完一幅画,这位“大师”会戴上**“人类视觉眼镜”**(预训练的视觉模型)。
    2. 大师会分析画面,画出一张**“热力图”**(Allocation Map)。
      • 红色区域(高权重):这是人类最在意的地方!比如猫的脸、眼睛、动态的肢体。这些地方必须画得完美。
      • 蓝色区域(低权重):这是背景或无关紧要的地方。画得稍微差点也没关系,不用花太多精力去改。
    3. 重新打分:ViPO 不再给整幅画一个总分,而是把那个总分拆解,根据热力图,给画面的每一个像素都分配一个“小任务”。
      • 猫的眼睛:你的任务是“变亮、变清晰”(因为这里权重高)。
      • 背景墙壁:你的任务是“保持现状,别乱动”(因为这里权重低)。

3. 一个生动的比喻:装修房子

想象你在装修房子(生成视频/图片):

  • 旧方法(GRPO)
    你请了个装修队,完工后,老板只说了一句:“这房子整体打 70 分,再努力点。”
    装修队懵了:是地板没铺好?还是墙纸贴歪了?还是厨房太乱?
    结果他们可能把地板重新铺了一遍(其实地板没问题),却把原本漂亮的墙纸给撕了。这就是**“一刀切”**的优化,容易把好的地方改坏。

  • 新方法(ViPO)
    老板(ViPO)拿着放大镜,指着房子说:

    • “客厅的沙发(核心主体)太旧了,必须换新的,这是重点!”
    • “厨房的角落(背景)有点灰,擦一下就行,不用大动。”
    • “卧室的天花板(无关区域)完全没问题,千万别动它!”

    装修队(AI)现在心里有数了:他们把 90% 的精力都花在沙发和关键细节上,同时小心翼翼地保护那些原本就画得好的地方。

4. 效果如何?

论文通过实验证明,用了 ViPO 的 AI:

  • 画得更像真的:细节更丰富,比如猫毛的质感、水的流动感。
  • 逻辑更通顺:不会出现“人手里拿着两个头”或者“马少了一条腿”这种奇怪的低级错误。
  • 更懂人类:即使面对没见过的提示词(比如让 AI 画一个从未见过的场景),它也能画得更好,因为它学会了“抓重点”。

总结

简单来说,ViPO 就是给 AI 装上了一双“懂审美的眼睛”。它不再盲目地追求整体分数的提升,而是学会了**“好钢用在刀刃上”**——把优化的精力集中在人类最关注的地方,同时保护那些已经画得很好的部分。这让 AI 生成的图片和视频从“大概像样”变成了“精致且和谐”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →