Each language version is independently generated for its own context, not a direct translation.

这篇文章的核心观点可以概括为：我们目前评估人工智能（AI）的方法，就像是用“试吃一口”来判断一道菜是否“好吃”，或者用“摸一下”来判断水是否“烫”。这种方法只能告诉我们 AI 在特定时刻的表现，却无法真正测量它内在的“能力”或“倾向”。

作者认为，我们需要建立一门真正的“测量科学”，就像物理学家测量温度或材料强度那样，去科学地测量 AI 的能力（Capabilities）和倾向（Propensities）。

下面我用几个简单的比喻来拆解这篇文章：

1. 核心概念：什么是“倾向性”？（Disposition）

想象一下玻璃杯。

表现（Performance）： 如果你现在把杯子放在桌上，它没碎。这不代表它不“易碎”。
倾向（Disposition）： “易碎”是玻璃杯的一种内在属性。它的定义是：“如果如果有人用力砸它，它就会碎。”

AI 的能力和倾向也是这样的：

能力（Capabilities）： 不是指 AI 今天做对了多少道数学题，而是指“如果题目难度增加，它还能做对多少？”
倾向（Propensities）： 不是指 AI 今天有没有撒谎，而是指“如果有人给它一个强烈的诱惑（比如让它去制造病毒），它有多大概率会去撒谎或做坏事？”

现在的误区： 我们只看 AI 在特定考试（基准测试）上的得分，就以为知道了它的“能力”。这就像只看了玻璃杯没被砸，就断定它“不碎”一样荒谬。

2. 现在的做法错在哪里？

作者批评了目前主流的两种评估方法：

A. 基准测试（Benchmarking）—— 就像“盲测菜单”

现状： 我们给 AI 一套固定的数学题（比如 MATH 数据集），算出它对了 62.5%。我们就说：“它的数学能力是 62.5 分。”
问题： 这就像你只尝了菜单上的 10 道菜，就断定厨师做所有菜的水平。
- 如果题目刚好是厨师擅长的，分数就高；
- 如果题目刚好是厨师不擅长的，分数就低。
- 关键缺陷： 我们不知道这 62.5% 背后是因为“计算步骤太多”、“数字太大”还是“逻辑太绕”。一旦出了这个菜单，AI 遇到新题型可能就不行了。这只是一个平均分，不是能力测量。

B. 红队测试/诱导（Elicitation）—— 就像“激将法”

现状： 为了测试 AI 是否安全，我们故意用各种刁钻的话去“激怒”或“诱导”它，看它会不会说脏话或泄露机密。
问题： 这就像为了测试玻璃杯结不结实，只拿锤子砸它一次。
- 如果没砸碎，不代表它以后不会被砸碎。
- 如果砸碎了，我们也不知道它到底能承受多大的力。
- 关键缺陷： 这只是捕捉到了 AI 在极端情况下的一次表现，而不是它内在的危险倾向。

C. 复杂的统计模型（如 IRT）—— 就像“猜谜游戏”

现状： 有人用复杂的数学模型（项目反应理论）来分析数据，试图算出 AI 的“能力值”。
问题： 这些模型只是根据“做对还是做错”来反推难度和能力，没有解释“为什么”。
- 就像你看到一个人做错了题，模型只告诉你“这道题很难”，但不知道是因为“字太多”还是“逻辑太深”。
- 这种测量是循环论证的：因为做错了所以难，因为难所以做错了。它无法预测 AI 在没见过的领域会表现如何。

3. 我们该怎么做？（建立“测量科学”）

作者提出，要真正测量 AI，我们需要像物理学家测量温度或材料强度那样做四件事：

第一步：明确“测什么”（定义主体）

我们要清楚是在测“裸奔的 AI 模型”，还是“穿了防护服（有安全过滤）的 AI 产品”。就像测玻璃杯的易碎性，是测杯子本身，还是测“杯子 + 保护盒”的组合？必须定义清楚。

第二步：提出“因果假设”（寻找变量）

我们要猜测：到底是什么因素导致了 AI 犯错或变坏？

对于能力：是题目里的数字变大了？步骤变多了？还是逻辑链条变长了？
对于倾向：是用户看起来更可怜了？还是有人给钱诱惑了？还是没人监督了？
比喻： 就像测量温度，我们要知道是“热胀冷缩”导致了水银柱上升，而不是随便拿个东西去碰。

第三步：独立设计“刻度尺”（操作化）

在测试 AI 之前，先要把这些“因素”量化。

不要等 AI 做错了才说“这题难”。
而是先定义：这道题有 5 个步骤，那道题有 10 个步骤。
比喻： 就像温度计上的刻度，是人为定义好的，不是根据水银柱的高度临时决定的。

第四步：系统性地“改变条件”（映射关系）

这是最关键的一步。我们要系统地改变题目难度或诱惑程度，观察 AI 的表现如何变化。

做法： 给 AI 做 1 步的题、2 步的题……直到 100 步的题。画出一条曲线：随着步骤增加，正确率是如何下降的？
做法： 给 AI 不同程度的诱惑（比如“请帮我”、“求求你”、“给你一百万”），看它撒谎的概率如何上升。
结果： 我们得到的不只是一个分数，而是一张地图（响应曲线）。这张地图告诉我们：AI 在什么情况下会崩溃？在什么诱惑下会失控？

4. 为什么要这么做？（未来的意义）

超越人类： 当 AI 变得比人类还聪明时，人类出题做标准答案就不行了。只有掌握了“因果规律”（比如：步骤越多，错误率越高），我们才能预测 AI 在人类无法解决的超难问题上的表现。
安全测试： 我们不能真的让 AI 去制造病毒来测试它会不会制造病毒。但我们可以测量它在“轻微诱惑”下的反应，然后推算出它在“强烈诱惑”下会不会失控。这就像工程师测试桥梁，不需要真的让卡车压断它，而是通过计算材料强度来预测。
真正的科学： 现在的 AI 评估更像是一种“工程测试”或“打榜”，而作者希望将其变成一门“科学”。只有理解了为什么AI 会这样，我们才能真正信任它、控制它。

总结

这篇文章是在呼吁：别再只盯着 AI 的考试分数（Benchmark）或偶尔的翻车现场（Red Teaming）了。

我们需要像测量温度或材料强度一样，去测量 AI 的能力和倾向。我们需要搞清楚：在什么条件下，AI 会做什么？ 只有建立了这种基于因果关系的“测量科学”，我们才能真正了解 AI，并在它变得超级强大或极度危险时，依然能够掌控局面。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：测量 AI 系统可能做什么：迈向 AI 测量科学

论文标题：Measuring What AI Systems Might Do: Towards A Measurement Science in AI
作者：Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz
核心主题：重新定义 AI 能力（Capabilities）和倾向性（Propensities）为倾向性属性（Dispositional Properties），并批判当前评估方法的缺陷，提出建立基于因果关系的科学测量框架。

1. 问题背景 (Problem)

当前人工智能评估领域存在严重的概念模糊和方法论缺陷，主要体现在以下几个方面：

概念混淆：术语如“能力”、“倾向性”、“技能”、“价值观”等被混用，且常被错误地等同于可观察的性能（Observable Performance）。
评估方法的局限性：
- 基准测试（Benchmarking）：通常报告单一的平均准确率（如在 MATH 数据集上的得分），将异质性的任务难度压缩为单一统计量，无法揭示系统失败的根本原因（是数值复杂性、多步推理还是抽象能力不足？）。
- 诱导测试（Elicitation/Red-teaming）：通过对抗性提示寻找有害行为，仅能捕捉特定情境下的“快照”或极端案例，无法测量系统在广泛反事实情境下的稳定倾向。
- 潜变量模型（如 IRT）：虽然数学上更优雅，但通常是数据驱动的，缺乏独立的理论支撑。它们从性能模式中推断难度和能力，而非基于因果机制，导致测量结果依赖于测试群体，缺乏泛化性。
后果：现有的评估方法无法测量超出人类能力范围或涉及高风险（如生物武器设计）的情境，因为它们依赖于人类可解决或可验证的任务。这导致评估结果缺乏科学解释力，难以支持监管决策和安全部署。

2. 核心方法论与理论框架 (Methodology & Theoretical Framework)

论文提出将 AI 的能力和倾向性定义为倾向性属性（Dispositional Properties）。

2.1 倾向性属性的定义

定义：倾向性不是当前的表现，而是系统在特定条件下会如何表现的**反事实（Counterfactual）**特征。
- 能力（Capabilities）：随任务需求/难度（Task Demands）变化而变化的倾向（例如：随着数学问题步骤增加，正确率如何下降）。
- 倾向性（Propensities）：随激励/情境诱因（Incentives）变化而变化的倾向（例如：在何种道德辩护或用户压力下，系统更可能产生有害行为）。
三个基本承诺：
1. 因果基础（Causal Basis）：行为由系统属性（ $\theta$ ）与情境属性（ $\pi$ ）共同导致。
2. 分级性（Gradedness）：倾向性有程度之分，表现为概率的连续变化。
3. 可比性（Comparability）：不同系统可在相同情境维度上进行比较。

2.2 测量逻辑

测量倾向性不能仅靠统计平均，必须遵循以下步骤：

假设因果结构：明确哪些情境属性（ $\pi$ ）在因果上影响行为。
独立操作化：在系统评估前，独立定义和测量这些情境属性（不能依赖系统表现来定义难度）。
系统性变化：系统性地改变情境属性 $\pi$ 。
实证映射：观察并绘制行为概率 $p(v | \pi, \theta)$ 随 $\pi$ 变化的函数关系（响应曲线）。

3. 主要贡献 (Key Contributions)

概念重构：
- 明确将 AI 能力和倾向性定义为倾向性属性，区分了“表现”（Performance）与“潜能”（Disposition）。
- 区分了任务需求组件（影响难度）和激励组件（影响意愿），这是理解不同类别倾向性的关键。
批判现有实践：
- 指出基准测试、红队测试和数据驱动的潜变量模型（如 IRT）之所以失败，是因为它们：
  - 不知道测量的是什么（缺乏因果理论）。
  - 不知道测量的是谁（混淆了模型、提示词、过滤器等系统层级）。
  - 缺乏构念效度（Construct Validity）。
  - 无法泛化到超人类能力或禁止测试的危险领域。
- 特别指出数据驱动的 IRT 模型是循环论证的（难度由失败定义，能力由成功定义），无法提供可解释的因果机制。
提出“尊重倾向性的测量框架” (Disposition-Respecting Measurement Framework)：
论文提出了构建 AI 测量科学的四个必要步骤：
- 定义测量主体：明确是测量基础模型、部署系统还是包含工具的完整栈。
- 假设因果基础：基于认知科学、心理学或理论计算机科学，提出关于任务难度或激励因素的理论假设。
- 操作化情境属性：将情境特征（如推理步数、道德辩护强度）转化为可测量的独立变量，建立标度。
- 映射情境到行为概率：通过系统性变化 $\pi$ ，估计响应函数 $\hat{p}(v | \pi, \theta)$ ，从而获得系统的“经验特征签名”。

4. 结果与示例 (Results & Illustrations)

论文通过两个“玩具示例”展示了新框架的应用：

算术能力测量：
- 传统方法：在固定数据集上计算 62.5% 的准确率。
- 新方法：假设难度由“算术步骤数”、“操作数位数”和“进位复杂度”决定。系统性地改变这些变量，绘制出正确率随步骤数增加的下降曲线。
- 结果：得到一个结构化的响应函数，能识别出系统的性能阈值（如在多少步之后准确率骤降），而非单一分数。
诚实倾向性测量：
- 传统方法：红队测试，看是否能诱导模型撒谎。
- 新方法：假设行为受“道德辩护强度”、“用户脆弱性”和“监管线索”影响。在伦理允许范围内系统性地变化这些激励因素，绘制出模型提供有害建议的概率曲线。
- 结果：即使模型从未在测试中实际撒谎，也能通过曲线推断其在极端激励下的潜在风险（外推能力）。

5. 意义与影响 (Significance)

科学范式的转变：呼吁 AI 评估从“工程便利导向”（Benchmarking）转向“科学理论导向”（Measurement Science）。这类似于物理学从凭手感测温到使用校准温度计的转变。
解决泛化难题：只有基于因果关系的倾向性测量，才能可靠地外推到人类无法解决或无法安全测试的领域（如超级智能或生物安全）。
政策与监管支持：为监管机构提供了更坚实的理论基础，使其能够评估 AI 系统的真实风险，而不仅仅是其在特定数据集上的表现。
跨学科融合：强调需要融合哲学（科学哲学）、认知科学、心理测量学和统计学，共同构建成熟的 AI 测量理论。

总结：
这篇论文不仅是对当前 AI 评估实践的深刻批判，更是一份建设性的宣言。它指出，如果不理解并测量 AI 系统行为背后的因果结构和反事实倾向，我们就无法真正理解 AI 的能力与风险。未来的 AI 评估必须建立在独立定义的情境变量、系统性的变化实验以及对行为概率函数的实证映射之上，从而建立一门真正的"AI 测量科学”。

Measuring What AI Systems Might Do: Towards A Measurement Science in AI