What Is Missing: Interpretable Ratings for Large Language Model Outputs

该论文提出了“缺失内容(WIM)”评分系统,通过让评判者撰写关于模型输出缺失信息的自然语言反馈,并利用句子嵌入计算其与输出的余弦相似度来生成可解释的评分,从而克服了传统离散数值评分的主观性局限,为偏好学习提供了更丰富且可调试的学习信号。

Nicholas Stranges, Yimin Yang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种给大语言模型(LLM)“打分”的新方法,叫做 WIM(What Is Missing,即“缺了什么”)。

为了让你轻松理解,我们可以把训练大模型想象成教一个刚学做菜的新手厨师

1. 旧方法:模糊的“打分表”

以前,我们教厨师做菜时,通常是让他做两道菜(比如两道红烧肉),然后请一位“美食评委”来打分。

  • 传统做法:评委直接给菜打分,比如“这道菜 8 分,那道菜 7 分”。
  • 问题所在
    • 太主观:为什么是 8 分而不是 7.5 分?评委心里可能有一杆秤,但没说出来。
    • 容易打平:很多时候,评委觉得两道菜都“还行”,于是都给了 8 分。这时候,厨师就懵了:“既然都是 8 分,那我到底该学哪一道?哪一道需要改进?”这就导致学习信号很弱,厨师进步很慢。
    • 不可解释:如果厨师问“我哪里做得不好?”,评委只说“扣了 2 分”,厨师还是不知道具体是盐放多了,还是火候没到。

2. 新方法 WIM:具体的“挑刺清单”

这篇论文提出的 WIM 方法,改变了评委的打分方式。

  • 新做法:评委不再直接给数字,而是写一段话,专门指出这道菜**“缺了什么”**。
    • 比如评委不说"7 分”,而是说:“这道肉缺了一点姜味,而且缺了收汁的步骤,导致汤汁太稀。”
  • 如何变成分数
    • 系统会把“厨师做的菜(原文)”和“评委写的缺憾(反馈)”都翻译成电脑能懂的“向量”(可以想象成一种包含所有信息的数字指纹)。
    • 然后计算这两个指纹的相似度
    • 逻辑是:如果评委写的“缺憾”很少,或者写的“缺憾”和“菜”本身很匹配(比如菜里确实没姜,评委就写了没姜),说明这道菜缺的东西少,分数就高。如果评委写了很长一串“缺憾”,说明菜做得不好,分数就低。

3. 为什么这个方法更厉害?(核心优势)

A. 告别“打平局”,信号更清晰

  • 比喻:在旧方法里,评委可能给两道菜都打 8 分,厨师不知道改哪。
  • WIM 的效果:因为评委要写具体的“缺憾”,很难给两个完全不同的回答打出完全一样的分数。
    • 菜 A 缺了姜(缺憾少),得分 9.2。
    • 菜 B 缺了姜还缺了糖(缺憾多),得分 7.5。
    • 结果:分差变大了(Delta 变大),厨师一眼就能看出:“哦!原来菜 B 比菜 A 差这么多,我要重点改菜 B 的问题!”这就给模型提供了更强的学习动力

B. 像“侦探”一样可解释

  • 比喻:如果模型表现不好,旧方法你只知道它“得了低分”,像个黑盒子。
  • WIM 的效果:你可以直接看到评委写的“缺憾清单”。
    • 比如你发现模型总是被扣分,你一看反馈:“哦,原来它每次写代码都缺了错误处理部分。”
    • 这就让研究人员能像侦探一样,精准地找到模型的弱点,进行“定性调试”。

C. 谁来做评委?

  • 这篇论文还做了一个有趣的实验:让模型自己当评委(Self-Judging)。
    • 固定评委:用一个没怎么变过的旧模型来挑刺。
    • 移动评委:让正在学习的模型自己挑刺(就像学生自己批改自己的作业)。
    • 发现:用“固定评委”效果最好,因为“移动评委”可能会因为自己变强了,导致挑刺的标准也跟着变,让学习过程变得不稳定。

4. 总结:这对我们意味着什么?

这篇论文的核心思想是:不要只给模型一个冷冰冰的数字,要给它具体的“改进意见”,然后把意见转化成数字。

  • 以前:模型问“我做得怎么样?” -> 回答:"8 分。”(模型:???)
  • 现在 (WIM):模型问“我做得怎么样?” -> 回答:“你做得不错,但缺了一点细节,比如这里逻辑不通,那里少个例子。根据这些缺失,你的分数是 8.7。”(模型:明白了,我去补上细节!)

最终效果
通过这种方法,研究人员发现模型训练得更快、损失更低(Loss 更小),而且在测试中获胜的概率也提高了。这就好比给 AI 教练配了一位不仅会打分,还会写详细“体检报告”的专家,让 AI 能更精准地进化。

一句话总结
WIM 方法把模糊的“打分”变成了具体的“找茬”,让大模型在自我进化时,不仅能知道“考了多少分”,还能清楚地知道“哪里没学好,该怎么改”。