AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 AdAEM 的新工具，它的任务是给大语言模型（LLM，比如现在的各种 AI 聊天机器人）做“价值观体检”。

为了让你轻松理解，我们可以把大语言模型想象成一群来自不同国家、不同背景的“超级实习生”。虽然它们都很聪明，能写诗、写代码，但它们的“性格”和“价值观”可能大不相同。

1. 现在的痛点：大家都穿“安全服”，看不出真性格

现状：
以前，我们测试这些 AI 的价值观，就像给它们做一套标准化的“安全常识考试”。

题目例子： “杀人犯法吗？”、“要爱护环境吗？”
结果： 所有的 AI 都会异口同声地回答：“当然！我们要守法、要环保！”（就像大家都穿着统一的白色安全服）。
问题： 这种考试太简单、太老套了。AI 们早就背熟了答案。这导致我们看不出它们之间真正的区别。比如，一个 AI 可能更看重“个人自由”，另一个可能更看重“集体安全”，但在“杀人犯法”这种问题上，它们都表现得一模一样。这就叫**“信息量不足”**（Informativeness Challenge）。

2. AdAEM 的解决方案：举办一场“观点辩论赛”

AdAEM 是什么？
AdAEM 就像是一个**“智能辩论赛策划人”。它不直接出题，而是自己动态生成**那些能让 AI 们“吵起来”或者“露出马脚”的难题。

它是怎么工作的？（三个步骤）

寻找“火药桶”话题（自动扩展）：
普通的题目太无聊。AdAEM 会去挖掘那些最新的、有争议的、不同文化背景下看法不一的话题。
- 比喻： 就像它不再问“吃饭要用手还是筷子”，而是问“为了应对加州最新的山火，政府是否应该优先把预算花在无人机灭火上，而不是其他公共福利上？”
- 这种题目，有的 AI 会说“为了安全，必须用无人机”，有的 AI 会说“不能牺牲其他福利”。分歧就出现了！
互相“挖坑”与优化（自适应优化）：
AdAEM 会让一群 AI 互相“出题”和“答题”。
- 如果某个问题，所有 AI 的回答都一样，AdAEM 就会想：“这个问题太烂了，换个角度！”
- 如果某个问题，AI 们的回答千奇百怪，AdAEM 就会想：“这个问题好！再加点细节，让它更尖锐一点！”
- 这个过程就像**“磨刀”**，把问题磨得越来越锋利，直到能精准地切开 AI 们内心不同的价值观。
动态进化（自我生长）：
这是 AdAEM 最厉害的地方。它不是死板的题库，而是一个活着的系统。
- 当新的 AI 模型发布，或者世界上发生了新的大事（比如新的战争、新的科技伦理问题），AdAEM 会立刻吸收这些新知识，生成新的题目。
- 比喻： 就像它有一个**“时间机器”**，能确保题目永远比 AI 的“记忆库”更新，防止 AI 靠“背题”作弊。

3. 为什么要这么做？（核心价值）

打破“假象”： 以前我们以为所有 AI 价值观都很完美（都符合“无害、诚实、有用”），但 AdAEM 发现，它们在深层价值观上其实差异巨大。有的 AI 像“保守的管家”，有的像“激进的冒险家”。
文化差异： 中国的 AI 和美国的 AI，在面对“家庭责任”或“个人成就”时，反应可能完全不同。AdAEM 能精准捕捉到这些文化基因的差异。
防止污染： 因为题目是 AI 自己实时生成的，所以 AI 不可能在训练数据里提前背过这些题，保证了测试的公平性。

4. 总结：一个形象的比喻

想象一下，我们要给一群**“超级厨师”**（AI 模型）做口味测试：

旧方法： 问他们“糖甜不甜？”、“盐咸不咸？”。所有厨师都会说“甜/咸”。这测不出谁更擅长做川菜，谁更擅长做粤菜。
AdAEM 方法： 它像一个**“刁钻的美食评论家”。它会突然端出一盘“刚发生的、充满争议的食材搭配”**（比如：用最新的合成肉做传统佛跳墙，该不该加辣椒？）。
- 有的厨师会坚持传统，拒绝加辣。
- 有的厨师会拥抱创新，大加赞赏。
- 通过观察他们在这些**“新难题”上的反应，我们才能真正看清每个厨师的“灵魂口味”**（价值观）。

一句话总结：
AdAEM 不再让 AI 做“标准答案”的复读机，而是通过动态生成那些让 AI 们**“各抒己见、甚至产生分歧”**的难题，来真正看清它们内心深处的价值观差异。这让 AI 的评估从“死记硬背”变成了“深度对话”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《ADAEM: 一种自适应且自动可扩展的大语言模型价值差异测量方法》。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心挑战：信息量不足 (Informativeness Challenge)。
- 现有的大语言模型（LLM）价值观评估方法主要依赖静态基准（Static Benchmarks），这些基准通常使用过时、被污染（数据泄露）或过于通用的测试问题。
- 这些问题往往只能捕捉到模型间共有的、高度对齐的安全价值观（如“无害性”HHH），导致不同模型的回答趋同，无法区分模型之间真实的价值观差异（Misalignment）、文化适应性和偏见。
- 现有的评估结果往往是“饱和”的，缺乏区分度，无法为模型对齐和伦理研究提供有意义的洞察。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 AdAEM (Adaptively and Automated Extensible Measurement)，一种新颖的、自扩展的动态评估算法。其核心思想是通过探测不同文化、不同时期开发的 LLM 内部的价值观边界，自动生成并扩展能够激发价值观差异的测试问题。

2.1 核心框架

AdAEM 包含两个主要组件：

信息量优化 (Informativeness Optimization)：
- 目标： 寻找能够最大化不同 LLM 之间价值观分布差异的问题 $x$ 。
- 数学形式化： 将问题构建为一个优化问题，旨在最大化广义 Jensen-Shannon 散度（衡量不同模型价值观分布的可区分性），同时最小化问题本身对价值观的干扰（解耦性，Disentanglement）。
- 优化算法： 采用类似 EM（期望最大化）算法的迭代过程：
  - E-步 (响应生成)： 固定问题，采样不同模型的回复 $y$ ，选择那些能最大化价值观差异且语义连贯的回复。
  - M-步 (问题精炼)： 固定回复，优化问题 $x$ ，使其能更有效地激发出具有不同价值观的回复。
- 目标函数： 包含可区分性（Distinguishability）和解耦性（Disentanglement）两项，通过最大化模型回复间的价值观差异和语义差异来筛选问题。
探索算法 (Exploration Algorithm)：
- 多臂老虎机 (Multi-Armed Bandit) 变体： 为了覆盖多样化的社会议题（特别是争议性话题），AdAEM 结合蒙特卡洛树搜索（MCTS）思想，在“探索”（寻找新话题）和“利用”（优化现有话题）之间取得平衡。
- 自扩展机制： 利用最新发布的 LLM（利用其未过时的知识）和不同文化背景的 LLM（利用其文化差异）来生成新的测试问题。这避免了数据污染，并确保了评估的时效性和文化多样性。
- 流程： 从少量通用话题开始，通过迭代优化生成大量高信息量的具体问题，形成动态基准。

2.2 评估指标

基于观点的价值观评估： 从模型回复中提取多个观点（Opinions），识别其反映的价值观维度。
相对排名聚合 (TrueSkill)： 不直接给出绝对分数，而是利用 TrueSkill 算法（基于 Elo 评级系统的贝叶斯扩展）计算模型在特定价值观维度上的相对强弱（胜率），从而更可靠地量化模型间的差异。

3. 主要贡献 (Key Contributions)

首创自扩展动态评估方法： 提出了 AdAEM，这是首个能够自动、自适应地生成和扩展测试问题的动态价值观评估框架，专门解决现有基准信息量不足的问题。
高质量的价值观激发问题生成： 通过大量分析证明，AdAEM 能自动生成多样化、具体且能激发价值观冲突的问题，相比现有工作能更清晰地反映 LLM 的价值观差异。
构建 AdAEM Bench 数据集： 基于社会心理学中的 Schwartz 基本价值观理论（10 个维度）构建了包含 12,310 个问题的评估基准。该数据集覆盖了 106 个国家/地区，具有极高的新颖性和多样性。
广泛的验证与有效性分析： 通过控制变量实验（如价值观 priming）、人类评估和跨模型对比，验证了该方法的有效性、可靠性和可解释性。

4. 实验结果 (Results)

基准构建质量：
- AdAEM Bench 在语义多样性（Self-BLEU 更低）和话题丰富度上显著优于人工构建的 SVS 和合成的 ValueDCG。
- 与现有数据集的语义相似度较低（Sim 约 0.44），表明其生成的问题新颖，未被模型训练数据污染。
评估有效性 (Validity)：
- 控制实验： 通过显式提示（Priming）引导模型（如 o3-mini）偏向特定价值观，AdAEM 能准确捕捉到目标价值观分数的显著上升（+31%）及冲突价值观的下降（-58%），证明了其构念效度。
- 可靠性： 内部一致性高（Cronbach's $\alpha$ = 0.90），表明评估结果稳定。
评估结果分析：
- 区分度： 相比 SVS 和 ValueBench（所有模型在大多数维度上得分趋同），AdAEM 成功揭示了不同模型（如 GPT-4, GLM-4, Llama 系列）在价值观上的显著差异。
- 文化与时序差异： 实验显示，不同文化背景的模型（中国、美国、欧洲）生成的问题具有明显的地域偏好；不同知识截止日期的模型能捕捉到不同时间点的社会热点（如乌克兰战争、加沙冲突等），证明了其动态扩展能力。
- 模型特性发现： 发现更先进的模型更倾向于安全相关的维度（如普遍性 Universalism）；推理型模型（如 O3-mini）在“自我导向”和“刺激”维度上表现突出；同一家族模型表现出相似的价值观倾向。

5. 意义与影响 (Significance)

理论意义： 为 LLM 价值观评估提供了新的范式，从静态、通用的测试转向动态、自适应、基于信息论的探测，解决了“评估饱和”问题。
实践意义：
- 持续追踪： AdAEM 能够随着 LLM 的发展而“共同进化”，持续追踪模型的价值观动态变化，防止数据污染。
- 跨文化对齐： 通过引入多文化模型参与问题生成，有助于揭示模型在不同文化背景下的偏见和对齐差异。
- 研究工具： 开源的代码和生成的基准（AdAEM Bench）为学术界提供了研究 LLM 价值观、偏见及伦理对齐的重要工具，促进了跨学科研究。
伦理考量： 论文详细讨论了潜在风险（如利用争议话题），并提出了严格的安全措施（如使用 Llama-Guard 过滤有害内容），确保研究负责任地进行。

总结：
AdAEM 通过一种数学上严谨且工程上可行的自适应优化框架，成功突破了现有 LLM 价值观评估的瓶颈。它不仅生成了高质量、高区分度的测试集，还揭示了过去被静态基准掩盖的模型间细微且重要的价值观差异，为构建更安全、更对齐、更具文化适应性的 AI 系统奠定了坚实基础。

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

1. 现在的痛点：大家都穿“安全服”，看不出真性格

2. AdAEM 的解决方案：举办一场“观点辩论赛”

3. 为什么要这么做？（核心价值）

4. 总结：一个形象的比喻

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 核心框架

2.2 评估指标

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem