DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

本文提出了名为 DesignSense-10k 的大规模人类偏好数据集及基于视觉语言模型的奖励框架,通过五阶段数据构建流程和四分类标注体系,显著提升了图形布局生成的评估精度与生成质量,有效解决了现有模型在布局美学判断上的不足。

Varun Gopal, Rishabh Jain, Aradhya Mathur, Nikitha SR, Sohan Patnaik, Sudhir Yarram, Mayur Hemani, Balaji Krishnamurthy, Mausoom Sarkar

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DesignSense 的新项目,它就像是为 AI 设计软件请了一位“超级人类审美导师”。

为了让你更容易理解,我们可以把图形排版(Graphic Layout)想象成布置一个房间

1. 核心问题:AI 会“装修”,但不懂“住感”

现在的 AI 模型(比如那些能生成海报、广告图的模型)已经非常厉害了。它们能像熟练的装修工人一样,把文字、图片、图标这些“家具”摆进房间里。

但是,这些 AI 有一个大毛病:它们不懂“住起来舒不舒服”

  • 现有的 AI 是看着“照片”(比如风景照、人像)来学习的,它们觉得“这张图看起来像真的照片”就是好图。
  • 排版(Layout)不一样。排版就像摆家具:哪怕你用的家具(元素)完全一样,只是把沙发往左挪了 10 厘米,或者把画挂歪了一点,整个房间的“风水”(美感)就全变了。
  • 现有的 AI 就像是一个只懂看照片的装修工,它分不清“左边摆得好”还是“右边摆得好”,因为它没受过专门的“摆家具”训练。

2. 解决方案:造了一个“审美训练场” (DesignSense-10k)

为了解决这个问题,Adobe 的研究团队做了一个巨大的工程,他们造了一个专门的“审美训练场”,里面包含了 10,235 对 精心设计的排版对比图。

他们是怎么造这个训练场的?(就像在造一个“家具摆放模拟器”)

  1. 分组(Grouping):先把相关的元素(比如“标题”和“副标题”)绑在一起,就像把“餐桌和椅子”绑成一组,避免 AI 把它们拆散。
  2. 预测(Prediction):让 AI 试着把这些组在房间里重新摆放,生成很多种方案。
  3. 筛选(Filtering):把那些明显摆得乱七八糟(比如桌子叠在椅子上)的方案扔掉。
  4. 多样化(Clustering):确保留下的方案风格各异,有的像客厅,有的像办公室,有的长条,有的方正。
  5. 精修(Refinement):最后用更高级的 AI 把细节微调一下,比如把歪掉的画扶正,把重叠的桌子分开。

关键一步:人类来打分
在这个训练场里,他们请了真人(人类标注员)来当评委。面对两张排版图,人类评委不是简单地说“哪个好看”,而是有四种选择

  • 🅰️ 左边好
  • 🅱️ 右边好
  • 两个都挺棒(有时候两个方案都很完美)
  • 两个都太烂(有时候两个方案都一塌糊涂)

这种“四个选项”的机制非常聪明,因为它捕捉到了人类审美的模糊性——有时候真的很难选,或者两个都很差。

3. 成果:诞生了“超级审美 AI" (DesignSense 模型)

有了这个训练场,他们训练出了一个新模型,叫 DesignSense

  • 它的超能力:它不再是一个只会看照片的 AI,而是一个懂空间、懂平衡、懂层级的“空间设计师”。
  • 战绩:在测试中,它打败了所有现有的“大明星”模型(包括 GPT-4o, GPT-5, Gemini 等)。
    • 其他模型就像只会背书的考试机器,遇到复杂的排版题就乱猜(比如把“两个都烂”猜成“左边好”)。
    • DesignSense 就像经验丰富的老设计师,它能准确判断出哪个布局更舒服,准确率比其他模型高了 54.6%

4. 实际应用:让 AI 设计得更好

这个模型有什么用呢?它不仅仅是用来“打分”的,它还能反过来教生成排版的 AI。

  • 强化学习(RL):想象一下,让一个 AI 设计师(比如 AesthetiQ)去设计海报。以前它没有好的老师,只能瞎试。现在,DesignSense 充当了严厉的教练。AI 每设计一张图,教练就打分。如果设计得好,就奖励;设计得不好,就让它重做。
    • 结果:经过教练指导后,AI 设计师的“胜率”(做出人类喜欢的图)提升了 3%
  • 推理时缩放(Inference-time Scaling):这就像让 AI 设计师一次画 10 张草图,然后让 DesignSense 教练从中挑出最好的一张给人看。
    • 结果:这种方法让最终呈现给人类的图,质量又提升了 3.6%

总结

这篇论文的核心思想就是:
以前的 AI 学排版,是拿着“风景画册”在学,所以学歪了
现在,我们给 AI 建了一个专门的“家具摆放训练场”,请真人来教它什么是“舒服的空间感”,并造出了一个懂审美的“超级裁判”

这个“超级裁判”不仅能准确评价好坏,还能手把手教其他 AI 设计师,让它们生成的海报、广告和网页,真正符合人类的审美直觉。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →