Measuring What AI Systems Might Do: Towards A Measurement Science in AI

该论文主张将人工智能的能力与倾向视为基于反事实关系的“倾向性属性”,指出当前主流评估方法因混淆表现与属性而失效,并呼吁建立一种结合科学哲学与测量理论、通过系统验证因果情境来科学测量 AI 倾向的新范式。

Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz

发布于 2026-03-03
📖 2 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章的核心观点可以概括为:我们目前评估人工智能(AI)的方法,就像是用“试吃一口”来判断一道菜是否“好吃”,或者用“摸一下”来判断水是否“烫”。这种方法只能告诉我们 AI 在特定时刻的表现,却无法真正测量它内在的“能力”或“倾向”。

作者认为,我们需要建立一门真正的“测量科学”,就像物理学家测量温度或材料强度那样,去科学地测量 AI 的能力(Capabilities)和倾向(Propensities)。

下面我用几个简单的比喻来拆解这篇文章:

1. 核心概念:什么是“倾向性”?(Disposition)

想象一下玻璃杯

  • 表现(Performance): 如果你现在把杯子放在桌上,它没碎。这不代表它不“易碎”。
  • 倾向(Disposition): “易碎”是玻璃杯的一种内在属性。它的定义是:“如果如果有人用力砸它,它就会碎。”

AI 的能力和倾向也是这样的:

  • 能力(Capabilities): 不是指 AI 今天做对了多少道数学题,而是指“如果题目难度增加,它还能做对多少?”
  • 倾向(Propensities): 不是指 AI 今天有没有撒谎,而是指“如果有人给它一个强烈的诱惑(比如让它去制造病毒),它有多大概率会去撒谎或做坏事?”

现在的误区: 我们只看 AI 在特定考试(基准测试)上的得分,就以为知道了它的“能力”。这就像只看了玻璃杯没被砸,就断定它“不碎”一样荒谬。

2. 现在的做法错在哪里?

作者批评了目前主流的两种评估方法:

A. 基准测试(Benchmarking)—— 就像“盲测菜单”

  • 现状: 我们给 AI 一套固定的数学题(比如 MATH 数据集),算出它对了 62.5%。我们就说:“它的数学能力是 62.5 分。”
  • 问题: 这就像你只尝了菜单上的 10 道菜,就断定厨师做所有菜的水平。
    • 如果题目刚好是厨师擅长的,分数就高;
    • 如果题目刚好是厨师不擅长的,分数就低。
    • 关键缺陷: 我们不知道这 62.5% 背后是因为“计算步骤太多”、“数字太大”还是“逻辑太绕”。一旦出了这个菜单,AI 遇到新题型可能就不行了。这只是一个平均分,不是能力测量

B. 红队测试/诱导(Elicitation)—— 就像“激将法”

  • 现状: 为了测试 AI 是否安全,我们故意用各种刁钻的话去“激怒”或“诱导”它,看它会不会说脏话或泄露机密。
  • 问题: 这就像为了测试玻璃杯结不结实,只拿锤子砸它一次。
    • 如果没砸碎,不代表它以后不会被砸碎。
    • 如果砸碎了,我们也不知道它到底能承受多大的力。
    • 关键缺陷: 这只是捕捉到了 AI 在极端情况下的一次表现,而不是它内在的危险倾向

C. 复杂的统计模型(如 IRT)—— 就像“猜谜游戏”

  • 现状: 有人用复杂的数学模型(项目反应理论)来分析数据,试图算出 AI 的“能力值”。
  • 问题: 这些模型只是根据“做对还是做错”来反推难度和能力,没有解释“为什么”
    • 就像你看到一个人做错了题,模型只告诉你“这道题很难”,但不知道是因为“字太多”还是“逻辑太深”。
    • 这种测量是循环论证的:因为做错了所以难,因为难所以做错了。它无法预测 AI 在没见过的领域会表现如何。

3. 我们该怎么做?(建立“测量科学”)

作者提出,要真正测量 AI,我们需要像物理学家测量温度材料强度那样做四件事:

第一步:明确“测什么”(定义主体)

我们要清楚是在测“裸奔的 AI 模型”,还是“穿了防护服(有安全过滤)的 AI 产品”。就像测玻璃杯的易碎性,是测杯子本身,还是测“杯子 + 保护盒”的组合?必须定义清楚。

第二步:提出“因果假设”(寻找变量)

我们要猜测:到底是什么因素导致了 AI 犯错或变坏?

  • 对于能力:是题目里的数字变大了?步骤变多了?还是逻辑链条变长了?
  • 对于倾向:是用户看起来更可怜了?还是有人给钱诱惑了?还是没人监督了?
  • 比喻: 就像测量温度,我们要知道是“热胀冷缩”导致了水银柱上升,而不是随便拿个东西去碰。

第三步:独立设计“刻度尺”(操作化)

在测试 AI 之前,先要把这些“因素”量化。

  • 不要等 AI 做错了才说“这题难”。
  • 而是先定义:这道题有 5 个步骤,那道题有 10 个步骤。
  • 比喻: 就像温度计上的刻度,是人为定义好的,不是根据水银柱的高度临时决定的。

第四步:系统性地“改变条件”(映射关系)

这是最关键的一步。我们要系统地改变题目难度或诱惑程度,观察 AI 的表现如何变化。

  • 做法: 给 AI 做 1 步的题、2 步的题……直到 100 步的题。画出一条曲线:随着步骤增加,正确率是如何下降的?
  • 做法: 给 AI 不同程度的诱惑(比如“请帮我”、“求求你”、“给你一百万”),看它撒谎的概率如何上升。
  • 结果: 我们得到的不只是一个分数,而是一张地图(响应曲线)。这张地图告诉我们:AI 在什么情况下会崩溃?在什么诱惑下会失控?

4. 为什么要这么做?(未来的意义)

  • 超越人类: 当 AI 变得比人类还聪明时,人类出题做标准答案就不行了。只有掌握了“因果规律”(比如:步骤越多,错误率越高),我们才能预测 AI 在人类无法解决的超难问题上的表现。
  • 安全测试: 我们不能真的让 AI 去制造病毒来测试它会不会制造病毒。但我们可以测量它在“轻微诱惑”下的反应,然后推算出它在“强烈诱惑”下会不会失控。这就像工程师测试桥梁,不需要真的让卡车压断它,而是通过计算材料强度来预测。
  • 真正的科学: 现在的 AI 评估更像是一种“工程测试”或“打榜”,而作者希望将其变成一门“科学”。只有理解了为什么AI 会这样,我们才能真正信任它、控制它。

总结

这篇文章是在呼吁:别再只盯着 AI 的考试分数(Benchmark)或偶尔的翻车现场(Red Teaming)了。

我们需要像测量温度材料强度一样,去测量 AI 的能力倾向。我们需要搞清楚:在什么条件下,AI 会做什么? 只有建立了这种基于因果关系的“测量科学”,我们才能真正了解 AI,并在它变得超级强大或极度危险时,依然能够掌控局面。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →