Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

该论文提出了一个基于序数回归的奖励建模新框架,将 Likert 量表偏好数据转化为离散序数回归问题,通过从数据中直接学习阈值参数而非依赖启发式规则,实现了对细粒度人类反馈更 principled 且有效的利用,并在多个基准测试中展现出优于现有方法的性能。

Amirhossein Afsharrad, Ruida Zhou, Luca Viano, Sanjay Lall, Mohammad Ghavamzadeh

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大型语言模型(LLM)变得更“听话”、更符合人类喜好的新方法。为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生(AI)如何回答考试题目

1. 旧方法:只有“对”与“错”的简单打分

在传统的训练方法(如 Bradley-Terry 模型)中,人类老师给 AI 打分时,只能做二选一的判决:

  • 场景:老师给出两个回答 A 和 B。
  • 旧规则:老师只能圈出“哪个更好”。
    • “A 比 B 好” -> 给 A 加分。
    • “B 比 A 好” -> 给 B 加分。
  • 问题:这种打分太粗糙了!
    • 如果 A 只是稍微比 B 好一点点,和 A 碾压 B 好一万倍,在旧规则里,AI 收到的信号是一样的:“哦,A 赢了”。
    • 这就好比老师批改作文,不管你是写得“稍微有点瑕疵”还是“完全不知所云”,只要没及格,都只打一个"X"。AI 学不到其中的细微差别,也不知道自己到底错得有多离谱。

2. 新方法的灵感:像“李克特量表”那样打分

这篇论文指出,人类在评价时,其实心里是有等级的。我们通常会用像“非常满意、满意、一般、不满意、非常不满意”这样的李克特量表(Likert scale)

  • 新规则:老师不仅告诉 AI“谁赢了”,还告诉 AI“赢了多少”。
    • “A 比 B 好一点点”(等级 1)
    • “A 比 B 好很多”(等级 3)
    • “A 比 B 好得离谱”(等级 5)

3. 核心创新:把“模糊的感觉”变成“精确的数学尺子”

以前的研究者想利用这种等级信息,通常是靠拍脑袋(启发式方法)

  • 拍脑袋做法:“如果等级是 3,我就把损失函数乘以 3;如果是 5,就乘以 5。”
  • 缺点:这就像老师凭感觉说“这次作业很重要,所以分数翻倍”,但没有数学依据。而且每次换题目,老师都得重新想这个倍数是多少,非常麻烦且容易出错。

这篇论文做了什么?
他们把这个问题变成了一个**“有序回归”(Ordinal Regression)**的数学问题。

  • 比喻:想象 AI 的奖励分数是一个连续的滑滑梯
  • 旧方法:只在滑梯中间画一条线,左边是“输”,右边是“赢”。
  • 新方法:在滑梯上画了很多条刻度线(阈值)
    • 这些线把滑梯分成了不同的区域:
      • 区域 1:稍微好一点点
      • 区域 2:好很多
      • 区域 3:好得离谱
    • 最厉害的地方:这些“刻度线”的位置不是老师手动画的,而是AI 自己从数据里学出来的
    • AI 会问:“哦,原来当分数差达到 0.5 时,人类觉得是‘稍微好’;达到 2.0 时,人类觉得是‘好很多’。”AI 自动学会了人类心中的那把尺子。

4. 为什么这很重要?(三大好处)

A. 更懂“度” (Calibration)

  • 比喻:旧方法就像一个脾气暴躁的裁判,只要对手稍微弱一点,他就大喊“完胜!”,给对手判死刑。这会让 AI 在遇到真正难的问题时,也盲目自信地乱猜。
  • 新方法:像一位冷静的裁判。如果两个回答差不多,他就说“差不多”;如果差得远,他才说“完胜”。
  • 结果:论文发现,新方法在犯错时,通常只是“小错”(比如把“稍微好”误判为“好很多”),而旧方法经常犯“大错”(把“差不多”误判为“完胜”)。这对 AI 的安全性和可靠性至关重要。

B. 不需要人工调参 (No More Guessing)

  • 以前,工程师需要手动设置“好很多”等于多少分,这需要反复试错。
  • 现在,AI 自己从数据里学会这些分界线。就像教孩子认数,以前你要告诉他"1 加 1 等于 2,2 加 2 等于 4",现在你给他看一堆例子,他自己就学会了加法规律。

C. 抗干扰能力强 (Robustness)

  • 人类老师有时候也会看走眼,或者心情不好乱打分(噪音)。
  • 论文发现,新方法对这种“乱打分”的容忍度很高。即使老师有一半的打分是乱的,AI 依然能学会正确的逻辑。这就像即使有人偶尔在尺子上乱画刻度,AI 也能通过大量数据把真正的刻度找出来。

5. 总结

这篇论文就像给 AI 的“老师”发了一本新的评分指南

  • 以前:老师只能打“及格”或“不及格”,AI 学得死板,容易过度自信。
  • 现在:老师可以打“优秀、良好、及格、不及格”,并且 AI 自己学会了如何理解这些等级的细微差别。

最终效果:训练出来的 AI 不仅更聪明,而且更谦虚、更稳健。它在知道自己“差不多”的时候不会盲目自信,在知道自己“差得远”的时候也不会轻描淡写。这让人类与 AI 的互动更加自然、安全且高效。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →