Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 变得更“公平”和“稳健”的新方法。为了让你轻松理解，我们可以把 AI 的训练过程想象成**“组织一场大型社区投票”**。

1. 现状：为什么现在的 AI 有时会“偏心眼”？

想象一下，你要为社区决定建什么公园（选项 A：篮球场；选项 B：图书馆）。

传统方法 (RLHF/NLHF)：就像请了一位**“超级统计员”。他收集所有人的意见，然后只选那个得票稍微多一点点**的方案。
- 问题：如果 51% 的人选 A，49% 的人选 B，统计员会直接拍板：“建篮球场！”结果那 49% 的人（可能是一个很大的群体）完全被忽略了。
- 更糟的情况：如果有一小群“捣乱者”（比如只有 10% 的人），他们为了让自己喜欢的方案胜出，可能会策略性地撒谎（比如假装所有人都选 A），从而操纵结果。

现在的 AI 训练（RLHF）就有点像这个“超级统计员”，它往往只追求“赢”，而忽略了人口比例，导致结果对少数群体不公，且容易被操纵。

2. 新方案：人口比例对齐 (Population-Proportional Alignment)

这篇论文的作者们（来自 MIT 等机构）提出了一种新框架，核心思想是：AI 的决定应该像“按比例代表制”一样，反映真实的人口分布。

核心比喻：分蛋糕 vs. 选赢家

旧方法：是“赢家通吃”。谁票数多，谁就全拿。
新方法：是“按比例分蛋糕”。如果 60% 的人喜欢 A，40% 的人喜欢 B，那么 AI 生成的策略应该是：60% 的时候推荐 A，40% 的时候推荐 B。这样，无论你的观点是什么，你都能在你的比例内被代表。

3. 他们是怎么做到的？（三大法宝）

作者没有直接问每个人“你是谁、你属于哪个群体”（因为在现实中，我们很难知道每个人的具体身份），而是通过** pairwise comparisons（两两比较）** 来推断。

法宝一：像侦探一样推断“人口分布”

即使不知道谁是谁，只要知道大家两两比较的结果（比如：大家觉得 A 比 B 好，B 比 C 好），作者设计了一个数学侦探，能推算出**“最可能的真实人口比例范围”**。

比喻：就像你看到一群人排队买咖啡，虽然不知道每个人的名字，但通过他们买什么口味的比例，你能推断出“喜欢拿铁的人大概占多少，喜欢美式的人占多少”。

法宝二：设立“公平规则” (公理)

作者给 AI 定了几条必须遵守的“宪法”：

单调性：如果大家对某个选项的评价变好了，它被选中的概率不能变差。
帕累托效率：如果所有人都喜欢 A 胜过 B，那 AI 绝对不能选 B。
人口比例对齐 (PPA)：这是新提出的规则。AI 选某个选项的概率，至少要跟支持它的人口比例成正比。
防操纵性 (PBM)：这是最酷的一点。它保证了一个小群体无法通过撒谎把自己变成“多数派”。
- 比喻：就像在一个公平的投票系统中，10% 的人无论怎么联合起来，也绝不可能强行把结果变成 100% 支持他们，他们的影响力被限制在了 10% 左右。

法宝三：软着陆 (Softmax Relaxation)

有时候，大家意见非常一致（比如 99% 的人选 A），这时候我们可能希望 AI 果断选 A，而不是还保留 1% 的概率选 B。
作者设计了一个**“调节旋钮” ( $\beta$ )**：

把旋钮拧到左边：AI 非常公平，严格按人口比例分配（哪怕只有 1% 的人支持，也给它 1% 的机会）。
把旋钮拧到右边：AI 变得更像传统的“赢家通吃”，倾向于选出那个大家都觉得最好的“康多塞赢家”（Condorcet winner，即 pairwise 比较中无敌的选项）。
你可以自由调节这个平衡点。

4. 实验结果：真的有用吗？

作者做了两个实验：

电影推荐：就像给不同口味的观众推荐电影。新方法发现，旧方法（RLHF）虽然“胜率”高，但完全忽略了少数派；而新方法能很好地按比例满足大众和少数派，且很难被操纵。
大语言模型 (LLM)：用最新的 Qwen2.5 模型做测试。结果显示，新方法在保持模型“聪明”（赢率高）的同时，能显著减少被特定群体操纵的风险，并且能更好地反映不同用户群体的需求。

总结

这篇论文就像给 AI 戴上了一副**“公平眼镜”**。

以前：AI 像个势利的裁判，谁声音大（或谁稍微多一点点）就听谁的，容易被带节奏。
现在：AI 像个公正的调解员。它不仅能听懂大家的意见，还能算出“真正有多少人在支持这个观点”，并据此按比例分配决策权。更重要的是，它给“捣乱者”设了防火墙，让他们无法通过撒谎来窃取 majority（多数）的地位。

这种方法让 AI 在面对复杂、多元甚至冲突的人类观点时，能做出更包容、稳健且符合真实民意的决策。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《超越 RLHF 和 NLHF：基于公理框架的人口比例对齐》（Beyond RLHF and NLHF: Population-Proportional Alignment Under an Axiomatic Framework）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现有方法的局限性： 当前的人工智能对齐（Alignment）主要依赖强化学习人类反馈（RLHF）和纳什学习人类反馈（NLHF）。
- RLHF 通常假设人类偏好可以用单一标量奖励函数表示，通过 Bradley-Terry (BT) 模型学习奖励，进而优化策略。这本质上等价于社会选择理论中的最大博尔达规则（Maximal Borda Rule）。
- NLHF 将偏好学习视为双人零和博弈，寻找纳什均衡策略，等价于最大彩票规则（Maximal Lotteries, ML）。
核心痛点： 这两种方法在聚合多个评估者群体的偏好时，往往倾向于支持更广泛的意见，导致策略偏向某些特定群体，而忽略了人口分布的真实比例。
- 代表性不足： 当不同群体观点冲突时，RLHF/NLHF 可能产生确定性的策略（选择胜者），完全忽略少数群体的偏好，导致偏差。
- 易受操纵： 现有方法容易受到评估者群体的策略性操纵（Strategic Manipulation），即通过虚假报告偏好来不成比例地放大自身影响力。
- 缺乏群体信息： 现有的“多元对齐”（Pluralistic Alignment）方法通常假设已知评估者的群体标签，但在现实世界中，群体身份往往是隐式的或不可观测的。

本文目标： 提出一种新的偏好学习框架，能够在不依赖显式群体标签的情况下，直接从成对比较数据中推断评估者的人口分布，并生成与真实人口分布成比例对齐的策略，同时保证鲁棒性。

2. 方法论 (Methodology)

本文基于社会选择理论（Social Choice Theory），提出了一个公理化框架。

2.1 核心公理 (Axioms)

作者定义了一个概率社会选择函数（PSCF），要求满足以下四个公理：

单调性 (Monotonicity)： 提升某个选项的排名不应降低其被选中的概率。
帕累托效率 (Pareto Efficiency)： 如果所有评估者都偏好选项 A 胜过 B，则策略应赋予 A 更高的概率。
人口比例对齐 (Population-Proportional Alignment, PPA)： 策略中每个群体首选选项的概率应至少与该群体的人口比例成比例（ $\pi(y_k)/w_k \ge \alpha$ ）。
人口有界可操纵性 (Population-Bounded Manipulability, PBM)： 单个群体通过策略性操纵所能获得的额外收益，应被限制为其真实人口比例的仿射函数。这保证了鲁棒性，防止少数群体通过操纵获得不成比例的影响力。

2.2 算法框架

由于无法从成对比较数据中唯一确定真实的人口分布 $w$ ，作者提出了一个可行集推断与保守估计的方法：

可行人口分布集推断：
- 定义 $u_i = \min_{y \neq y_i} P(y_i \succ y)$ ，即选项 $y_i$ 在所有其他选项中获胜概率的最小值。
- 证明真实的人口份额 $w_i$ 必须满足 $w_i \le u_i$ 。
- 构建可行集 $\mathcal{W}(P)$ 的外近似多面体，约束条件为 $w_i \le u_i$ 。
基础算法 ( $F^*$ )：
- 为了在最坏情况下保证比例对齐，算法采用保守策略，将策略概率与上界 $u_i$ 成正比：
  $\pi(y_i) = \frac{u_i}{\sum_{j} u_j}$
- 该算法在理论上被证明满足单调性、帕累托效率、PPA 和 PBM。
Softmax 松弛与权衡 ( $F_\beta$ )：
- 为了在“人口比例对齐”和“孔多塞一致性”（Condorcet Consistency，即如果存在孔多塞胜者则必选之）之间取得平衡，引入了 Softmax 松弛：
  $\pi(y_i) = \frac{u_i \exp(\beta u_i)}{\sum_{j} u_j \exp(\beta u_j)}$
- 参数 $\beta$ 控制权衡： $\beta=0$ 时对应基础算法（强 PPA）； $\beta \to \infty$ 时退化为极小极大孔多塞方法（强孔多塞一致性）。
可扩展性 (Scalability)：
- 针对高维场景（如大语言模型），提出了两阶段离线学习算法：
  - 阶段 1： 训练一个选择器模型（Selector Model） $\mu$ 来估计 $u(y|x)$ 。
  - 阶段 2： 基于估计的 $u$ 构建目标策略分布，并通过 KL 散度最小化训练最终策略 $\pi$ 。

3. 主要贡献 (Key Contributions)

理论突破： 首次证明了可以从成对比较数据中推断出可行的人口分布集，并提出了满足 PPA 和 PBM 公理的偏好学习算法。
新公理体系： 引入了“人口比例对齐”和“人口有界可操纵性”两个新公理，填补了现有 RLHF/NLHF 在群体代表性方面的理论空白。
算法设计： 提出了基于 $u_i$ 上界的保守策略算法及其 Softmax 松弛版本，实现了比例对齐与孔多塞胜者选择之间的平滑权衡。
可扩展实现： 设计了适用于大语言模型（LLM）的两阶段函数近似算法，无需显式的群体标签即可实现多元对齐。

4. 实验结果 (Results)

实验在表格数据（电影推荐）和大语言模型（指令微调）两个场景下进行。

表格实验 (Movie Recommendation)：
- 使用 MovieLens 数据集，对比了 RLHF、NLHF 和提出的 $F_\beta$ 。
- 结果： RLHF 和 NLHF 的 PPA 水平为 0（完全忽略人口比例），而 $F_\beta$ 在 $\beta=0$ 时实现了显著的 PPA（约 0.49）。
- 权衡： 随着 $\beta$ 增加，胜率（Win Rate）上升，PPA 下降，验证了理论上的权衡关系。
- 鲁棒性： 提出的方法在 PBM（被操纵后的收益）指标上显著优于 RLHF 和 NLHF，表明其更难被操纵。
LLM 实验 (Instruction-Tuned LLMs)：
- 基于 Qwen2.5-3B 模型，在合成数据集（颜色偏好）和 Alpaca-GPT4 数据集（专家/风格分类）上进行微调。
- 结果： 在合成数据中，清晰观察到了 $\beta$ 对胜率与 PPA 的调节作用。在 Alpaca 数据集中，由于群体标签是通过 GPT-4 推断的（存在噪声），权衡效应不如合成数据明显，但算法依然有效。
- 结论： 证明了该方法在高维函数近似设置下的可扩展性。

5. 意义与影响 (Significance)

范式转变： 将 AI 对齐的焦点从单纯的“胜率最大化”或“单一奖励优化”转向“人口比例代表性”，为解决 AI 系统中的群体偏见提供了新的理论视角。
解决“黑盒”群体问题： 不需要预先知道评估者的群体身份，仅通过成对比较数据即可推断分布并实现比例对齐，极大地提高了方法在现实世界（群体标签缺失）中的适用性。
增强鲁棒性： 通过 PBM 公理，从理论上限制了恶意群体通过策略性操纵系统的能力，增强了 AI 系统的抗攻击性。
连接社会选择与 AI： 成功地将社会选择理论中的公理化方法（如孔多塞悖论、博尔达计数等）引入到现代深度强化学习和 LLM 对齐中，为未来研究奠定了坚实基础。

总结： 该论文提出了一种超越传统 RLHF/NLHF 的新型对齐框架，通过公理化方法确保了 AI 策略能够公平地反映不同评估者群体的真实人口比例，同时具备抵抗策略操纵的鲁棒性，并在理论和实验上均取得了显著成果。