PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions

本文提出了利用场景图引导大语言模型作为裁判的 PoSh 指标,并发布了包含艺术领域专家标注的 DOCENT 数据集,以解决现有评估方法难以衡量长文本图像描述中细粒度属性与关系错误的难题,从而更准确地评估视觉语言模型在复杂场景下的描述能力。

Amith Ananthram, Elias Stengel-Eskin, Lorena A. Bradford, Julia Demarest, Adam Purvis, Keith Krut, Robert Stein, Rina Elster Pantalony, Mohit Bansal, Kathleen McKeown

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 POSH 的新工具,以及一个名为 DOCENT 的新测试场。它们共同解决了一个大问题:如何给 AI 生成的“详细图片描述”打分?

想象一下,你是一位博物馆的馆长,或者是一位需要为视障人士描述画作的志愿者。现在的 AI(视觉语言模型)能看图说话,但以前我们很难判断它说得“好不好”。

1. 核心问题:以前的“尺子”太粗糙了

过去,我们评价 AI 写图片描述,就像是用一把只有“对”和“错”两个刻度的尺子去量一件精美的刺绣。

  • 旧方法(如 CIDEr, SPICE): 它们主要看 AI 是否提到了“猫”、“桌子”这些大词。如果 AI 说“一只猫在桌子上”,而参考描述是“一只黑猫在木桌上”,旧尺子可能觉得差不多。
  • 新挑战: 对于视障人士或需要详细信息的场景,细节决定成败。如果 AI 把“倒水的人”说成了“喝水的人”,或者把“红色的鸟”说成了“蓝色的鸟”,这种关系错位在旧尺子下可能根本测不出来,或者测不准。

这就好比:你让 AI 描述一幅画,它把画里“正在倒水的男人”描述成了“正在喝水的男人”。虽然它提到了“男人”和“水”,但动作和对象的关系全错了

2. 解决方案:POSH(像侦探一样找茬)

作者们发明了一个叫 POSH 的新评分系统。你可以把它想象成一位拥有“透视眼”的资深艺术评论家

POSH 的工作流程分三步,非常聪明:

  1. 拆解骨架(场景图提取):
    POSH 不会只盯着文字看,它先把 AI 写的描述和标准的“参考答案”都拆解成骨架图(场景图)

    • 比喻: 就像把一篇复杂的文章拆解成“谁(物体)”、“什么样(属性)”、“在做什么/和谁在一起(关系)”的清单。
    • 例如:把“倒水的男人”拆解为:[男人] + [属性:倒水] + [关系:对着杯子]
  2. 逐项对质(LLM 作为裁判):
    然后,POSH 会利用另一个大语言模型(LLM)作为“裁判”,拿着 AI 的骨架图去和参考答案的骨架图逐项对质

    • 比喻: 裁判会问:“参考答案里说‘穿红裙子的女人’,你的描述里有‘穿红裙子的女人’吗?还是只写了‘女人’?”
    • 它能精准地定位到哪一句话、哪一个词出了问题(是漏了细节?还是搞错了关系?)。
  3. 综合打分:
    最后,它把这些细碎的“找茬”结果汇总,给出一个总分。

    • 优点: 这个分数不仅告诉你“好不好”,还能告诉你“哪里不好”(是漏了细节,还是搞错了关系)。而且,因为它用的是开源模型,谁都能用,不用花钱买 API,结果完全可复现

3. 新考场:DOCENT(艺术界的“高考”)

为了证明 POSH 真的好用,作者们不能只用网上的普通照片(那些图太简单了,AI 很容易蒙对)。他们找来了美国国家美术馆的 1750 幅名画、素描和雕塑,建立了一个新基准 DOCENT

  • 为什么选艺术? 艺术品的细节极其丰富(光影、姿态、复杂的背景关系),而且通常有专家写的详细解说词作为“标准答案”。
  • 人工打分: 他们请了 24 位艺术系的学生和专家,像改卷子一样,逐字逐句地给 AI 生成的描述找错(漏了什么?写错了什么?)。这非常耗时(平均每条描述要 18 分钟),但数据极其珍贵。

4. 实验结果:POSH 赢了

作者们用 DOCENT 这个“考场”测试了各种评分工具:

  • POSH vs. 传统工具: POSH 的打分和人类专家的打分高度一致。它比那些传统的“字数统计”工具准得多。
  • POSH vs. 最强 AI(GPT-4o): 令人惊讶的是,POSH(一个开源的小模型)在判断细节错误的能力上,甚至超过了昂贵的 GPT-4o。
  • 作为“教练”: 作者还发现,如果把 POSH 当作 AI 的“教练”(奖励函数),让 AI 根据 POSH 的反馈去自我改进,AI 生成的描述质量会显著提升,比传统的训练方法更好。

5. 总结与意义

一句话总结:
POSH 就像给 AI 写图片描述装上了一套**“显微镜”和“纠错本”**,不仅能给分,还能精准指出哪里写错了,而且免费、开源、可重复。

这对我们意味着什么?

  • 对盲人/视障人士: 未来的 AI 能生成更准确、更详细的画作描述,真正帮助他们“看见”世界。
  • 对 AI 开发者: 提供了一个更好的工具来训练和评估模型,不再盲目地让 AI 生成文字,而是追求精准的细节
  • 对社会: 这是一个更公平、更透明的评估标准,不再依赖昂贵的闭源模型(如 GPT-4),让全球的研究者都能参与进来。

这篇论文的核心精神就是:在 AI 追求“像人一样说话”的路上,我们不能只看它“说了什么”,更要看它“说得对不对、细不细”。 POSH 就是那把能衡量“细度”的尺子。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →