Each language version is independently generated for its own context, not a direct translation.
这篇文章的核心观点可以概括为:我们目前评估人工智能(AI)的方法,就像是用“试吃一口”来判断一道菜是否“好吃”,或者用“摸一下”来判断水是否“烫”。这种方法只能告诉我们 AI 在特定时刻的表现,却无法真正测量它内在的“能力”或“倾向”。
作者认为,我们需要建立一门真正的“测量科学”,就像物理学家测量温度或材料强度那样,去科学地测量 AI 的能力(Capabilities)和倾向(Propensities)。
下面我用几个简单的比喻来拆解这篇文章:
1. 核心概念:什么是“倾向性”?(Disposition)
想象一下玻璃杯。
- 表现(Performance): 如果你现在把杯子放在桌上,它没碎。这不代表它不“易碎”。
- 倾向(Disposition): “易碎”是玻璃杯的一种内在属性。它的定义是:“如果如果有人用力砸它,它就会碎。”
AI 的能力和倾向也是这样的:
- 能力(Capabilities): 不是指 AI 今天做对了多少道数学题,而是指“如果题目难度增加,它还能做对多少?”
- 倾向(Propensities): 不是指 AI 今天有没有撒谎,而是指“如果有人给它一个强烈的诱惑(比如让它去制造病毒),它有多大概率会去撒谎或做坏事?”
现在的误区: 我们只看 AI 在特定考试(基准测试)上的得分,就以为知道了它的“能力”。这就像只看了玻璃杯没被砸,就断定它“不碎”一样荒谬。
2. 现在的做法错在哪里?
作者批评了目前主流的两种评估方法:
A. 基准测试(Benchmarking)—— 就像“盲测菜单”
- 现状: 我们给 AI 一套固定的数学题(比如 MATH 数据集),算出它对了 62.5%。我们就说:“它的数学能力是 62.5 分。”
- 问题: 这就像你只尝了菜单上的 10 道菜,就断定厨师做所有菜的水平。
- 如果题目刚好是厨师擅长的,分数就高;
- 如果题目刚好是厨师不擅长的,分数就低。
- 关键缺陷: 我们不知道这 62.5% 背后是因为“计算步骤太多”、“数字太大”还是“逻辑太绕”。一旦出了这个菜单,AI 遇到新题型可能就不行了。这只是一个平均分,不是能力测量。
B. 红队测试/诱导(Elicitation)—— 就像“激将法”
- 现状: 为了测试 AI 是否安全,我们故意用各种刁钻的话去“激怒”或“诱导”它,看它会不会说脏话或泄露机密。
- 问题: 这就像为了测试玻璃杯结不结实,只拿锤子砸它一次。
- 如果没砸碎,不代表它以后不会被砸碎。
- 如果砸碎了,我们也不知道它到底能承受多大的力。
- 关键缺陷: 这只是捕捉到了 AI 在极端情况下的一次表现,而不是它内在的危险倾向。
C. 复杂的统计模型(如 IRT)—— 就像“猜谜游戏”
- 现状: 有人用复杂的数学模型(项目反应理论)来分析数据,试图算出 AI 的“能力值”。
- 问题: 这些模型只是根据“做对还是做错”来反推难度和能力,没有解释“为什么”。
- 就像你看到一个人做错了题,模型只告诉你“这道题很难”,但不知道是因为“字太多”还是“逻辑太深”。
- 这种测量是循环论证的:因为做错了所以难,因为难所以做错了。它无法预测 AI 在没见过的领域会表现如何。
3. 我们该怎么做?(建立“测量科学”)
作者提出,要真正测量 AI,我们需要像物理学家测量温度或材料强度那样做四件事:
第一步:明确“测什么”(定义主体)
我们要清楚是在测“裸奔的 AI 模型”,还是“穿了防护服(有安全过滤)的 AI 产品”。就像测玻璃杯的易碎性,是测杯子本身,还是测“杯子 + 保护盒”的组合?必须定义清楚。
第二步:提出“因果假设”(寻找变量)
我们要猜测:到底是什么因素导致了 AI 犯错或变坏?
- 对于能力:是题目里的数字变大了?步骤变多了?还是逻辑链条变长了?
- 对于倾向:是用户看起来更可怜了?还是有人给钱诱惑了?还是没人监督了?
- 比喻: 就像测量温度,我们要知道是“热胀冷缩”导致了水银柱上升,而不是随便拿个东西去碰。
第三步:独立设计“刻度尺”(操作化)
在测试 AI 之前,先要把这些“因素”量化。
- 不要等 AI 做错了才说“这题难”。
- 而是先定义:这道题有 5 个步骤,那道题有 10 个步骤。
- 比喻: 就像温度计上的刻度,是人为定义好的,不是根据水银柱的高度临时决定的。
第四步:系统性地“改变条件”(映射关系)
这是最关键的一步。我们要系统地改变题目难度或诱惑程度,观察 AI 的表现如何变化。
- 做法: 给 AI 做 1 步的题、2 步的题……直到 100 步的题。画出一条曲线:随着步骤增加,正确率是如何下降的?
- 做法: 给 AI 不同程度的诱惑(比如“请帮我”、“求求你”、“给你一百万”),看它撒谎的概率如何上升。
- 结果: 我们得到的不只是一个分数,而是一张地图(响应曲线)。这张地图告诉我们:AI 在什么情况下会崩溃?在什么诱惑下会失控?
4. 为什么要这么做?(未来的意义)
- 超越人类: 当 AI 变得比人类还聪明时,人类出题做标准答案就不行了。只有掌握了“因果规律”(比如:步骤越多,错误率越高),我们才能预测 AI 在人类无法解决的超难问题上的表现。
- 安全测试: 我们不能真的让 AI 去制造病毒来测试它会不会制造病毒。但我们可以测量它在“轻微诱惑”下的反应,然后推算出它在“强烈诱惑”下会不会失控。这就像工程师测试桥梁,不需要真的让卡车压断它,而是通过计算材料强度来预测。
- 真正的科学: 现在的 AI 评估更像是一种“工程测试”或“打榜”,而作者希望将其变成一门“科学”。只有理解了为什么AI 会这样,我们才能真正信任它、控制它。
总结
这篇文章是在呼吁:别再只盯着 AI 的考试分数(Benchmark)或偶尔的翻车现场(Red Teaming)了。
我们需要像测量温度或材料强度一样,去测量 AI 的能力和倾向。我们需要搞清楚:在什么条件下,AI 会做什么? 只有建立了这种基于因果关系的“测量科学”,我们才能真正了解 AI,并在它变得超级强大或极度危险时,依然能够掌控局面。
Each language version is independently generated for its own context, not a direct translation.
论文技术总结:测量 AI 系统可能做什么:迈向 AI 测量科学
论文标题:Measuring What AI Systems Might Do: Towards A Measurement Science in AI
作者:Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz
核心主题:重新定义 AI 能力(Capabilities)和倾向性(Propensities)为倾向性属性(Dispositional Properties),并批判当前评估方法的缺陷,提出建立基于因果关系的科学测量框架。
1. 问题背景 (Problem)
当前人工智能评估领域存在严重的概念模糊和方法论缺陷,主要体现在以下几个方面:
- 概念混淆:术语如“能力”、“倾向性”、“技能”、“价值观”等被混用,且常被错误地等同于可观察的性能(Observable Performance)。
- 评估方法的局限性:
- 基准测试(Benchmarking):通常报告单一的平均准确率(如在 MATH 数据集上的得分),将异质性的任务难度压缩为单一统计量,无法揭示系统失败的根本原因(是数值复杂性、多步推理还是抽象能力不足?)。
- 诱导测试(Elicitation/Red-teaming):通过对抗性提示寻找有害行为,仅能捕捉特定情境下的“快照”或极端案例,无法测量系统在广泛反事实情境下的稳定倾向。
- 潜变量模型(如 IRT):虽然数学上更优雅,但通常是数据驱动的,缺乏独立的理论支撑。它们从性能模式中推断难度和能力,而非基于因果机制,导致测量结果依赖于测试群体,缺乏泛化性。
- 后果:现有的评估方法无法测量超出人类能力范围或涉及高风险(如生物武器设计)的情境,因为它们依赖于人类可解决或可验证的任务。这导致评估结果缺乏科学解释力,难以支持监管决策和安全部署。
2. 核心方法论与理论框架 (Methodology & Theoretical Framework)
论文提出将 AI 的能力和倾向性定义为倾向性属性(Dispositional Properties)。
2.1 倾向性属性的定义
- 定义:倾向性不是当前的表现,而是系统在特定条件下会如何表现的**反事实(Counterfactual)**特征。
- 能力(Capabilities):随任务需求/难度(Task Demands)变化而变化的倾向(例如:随着数学问题步骤增加,正确率如何下降)。
- 倾向性(Propensities):随激励/情境诱因(Incentives)变化而变化的倾向(例如:在何种道德辩护或用户压力下,系统更可能产生有害行为)。
- 三个基本承诺:
- 因果基础(Causal Basis):行为由系统属性(θ)与情境属性(π)共同导致。
- 分级性(Gradedness):倾向性有程度之分,表现为概率的连续变化。
- 可比性(Comparability):不同系统可在相同情境维度上进行比较。
2.2 测量逻辑
测量倾向性不能仅靠统计平均,必须遵循以下步骤:
- 假设因果结构:明确哪些情境属性(π)在因果上影响行为。
- 独立操作化:在系统评估前,独立定义和测量这些情境属性(不能依赖系统表现来定义难度)。
- 系统性变化:系统性地改变情境属性 π。
- 实证映射:观察并绘制行为概率 p(v∣π,θ) 随 π 变化的函数关系(响应曲线)。
3. 主要贡献 (Key Contributions)
概念重构:
- 明确将 AI 能力和倾向性定义为倾向性属性,区分了“表现”(Performance)与“潜能”(Disposition)。
- 区分了任务需求组件(影响难度)和激励组件(影响意愿),这是理解不同类别倾向性的关键。
批判现有实践:
- 指出基准测试、红队测试和数据驱动的潜变量模型(如 IRT)之所以失败,是因为它们:
- 不知道测量的是什么(缺乏因果理论)。
- 不知道测量的是谁(混淆了模型、提示词、过滤器等系统层级)。
- 缺乏构念效度(Construct Validity)。
- 无法泛化到超人类能力或禁止测试的危险领域。
- 特别指出数据驱动的 IRT 模型是循环论证的(难度由失败定义,能力由成功定义),无法提供可解释的因果机制。
提出“尊重倾向性的测量框架” (Disposition-Respecting Measurement Framework):
论文提出了构建 AI 测量科学的四个必要步骤:
- 定义测量主体:明确是测量基础模型、部署系统还是包含工具的完整栈。
- 假设因果基础:基于认知科学、心理学或理论计算机科学,提出关于任务难度或激励因素的理论假设。
- 操作化情境属性:将情境特征(如推理步数、道德辩护强度)转化为可测量的独立变量,建立标度。
- 映射情境到行为概率:通过系统性变化 π,估计响应函数 p^(v∣π,θ),从而获得系统的“经验特征签名”。
4. 结果与示例 (Results & Illustrations)
论文通过两个“玩具示例”展示了新框架的应用:
算术能力测量:
- 传统方法:在固定数据集上计算 62.5% 的准确率。
- 新方法:假设难度由“算术步骤数”、“操作数位数”和“进位复杂度”决定。系统性地改变这些变量,绘制出正确率随步骤数增加的下降曲线。
- 结果:得到一个结构化的响应函数,能识别出系统的性能阈值(如在多少步之后准确率骤降),而非单一分数。
诚实倾向性测量:
- 传统方法:红队测试,看是否能诱导模型撒谎。
- 新方法:假设行为受“道德辩护强度”、“用户脆弱性”和“监管线索”影响。在伦理允许范围内系统性地变化这些激励因素,绘制出模型提供有害建议的概率曲线。
- 结果:即使模型从未在测试中实际撒谎,也能通过曲线推断其在极端激励下的潜在风险(外推能力)。
5. 意义与影响 (Significance)
- 科学范式的转变:呼吁 AI 评估从“工程便利导向”(Benchmarking)转向“科学理论导向”(Measurement Science)。这类似于物理学从凭手感测温到使用校准温度计的转变。
- 解决泛化难题:只有基于因果关系的倾向性测量,才能可靠地外推到人类无法解决或无法安全测试的领域(如超级智能或生物安全)。
- 政策与监管支持:为监管机构提供了更坚实的理论基础,使其能够评估 AI 系统的真实风险,而不仅仅是其在特定数据集上的表现。
- 跨学科融合:强调需要融合哲学(科学哲学)、认知科学、心理测量学和统计学,共同构建成熟的 AI 测量理论。
总结:
这篇论文不仅是对当前 AI 评估实践的深刻批判,更是一份建设性的宣言。它指出,如果不理解并测量 AI 系统行为背后的因果结构和反事实倾向,我们就无法真正理解 AI 的能力与风险。未来的 AI 评估必须建立在独立定义的情境变量、系统性的变化实验以及对行为概率函数的实证映射之上,从而建立一门真正的"AI 测量科学”。