Measuring What AI Systems Might Do: Towards A Measurement Science in AI

この論文は、AI の能力や傾向を「 Dispositional properties(傾向的性質)」として定義し、現在の評価手法がこれを適切に測定できていないことを指摘した上で、哲学・測定理論・認知科学の知見に基づき、科学的に妥当な AI 評価の枠組みを提唱しています。

Konstantinos Voudouris, Mirko Thalmann, Alex Kipnis, José Hernández-Orallo, Eric Schulz

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI の能力や危険性を、本当に正しく測るにはどうすればいいか?」**という重要な問いに答えるための、新しい「ものさし」の提案書です。

現在の AI 評価のやり方は、まるで**「料理の味を測るために、一口だけ食べて『美味しい』と判断する」**ようなもので、科学的には不十分だと指摘しています。

以下に、難しい専門用語を避け、身近な例え話を使ってこの論文の核心を解説します。


1. 今のやり方の問題点:「平均点」は嘘をつく

今の AI 評価では、数学の問題を 100 問解かせて「正解率 62.5%」という数字を出し、「この AI は数学が得意だ」と判断します。また、危険なことをさせようとして失敗したら「安全だ」と判断します。

論文の著者たちは、これは**「温度計のない時代」**の測定方法だと批判しています。

  • 今のやり方(お茶の温度測定):
    お茶が熱いか冷たいかを知りたいのに、温度計がありません。そこで、8 種類の「温度を感じる道具」を用意します。

    • 指を突っ込んで「熱い」と言ったら○、指が痛くなったら×。
    • チョコレートを入れて溶けたら○、溶けなかったら×。
    • 8 個の道具のうち 5 個が反応したので、「お茶の温度は 62.5% です!」と発表します。
  • 問題点:
    この「62.5%」という数字は、お茶の本当の温度(科学的な事実)を測っていません。ただ「いくつかの道具が反応した割合」を合計しただけです。

    • もしお茶がもっと熱くなったらどうなるか?(超高温の予測ができない)
    • なぜ反応したのか?(熱さの「理由」がわからない)
    • 道具の選び方次第で数字が変わる(偏りがある)

今の AI 評価もこれと同じです。「正解率」という数字は、AI が**「特定のテスト問題」にどう反応したかという「結果」をまとめたに過ぎず、AI が「どんな状況でもどう振る舞うか」という「性質」**を測れていません。

2. 本当の「能力」とは何か?:「割れやすさ」の例え

著者たちは、AI の能力や危険性は、**「性質(Disposition)」**だと定義します。これを理解するために「割れやすさ(Fragility)」という例えを使います。

  • ガラスのコップ:
    • 今の評価: 「コップを落として割れたか?」という結果だけを見る。
    • 本当の性質: 「コップは、もし1 メートルから落とせば割れるが、もし10 センチなら割れない」という**「もし〜なら、どうなるか」**という関係性そのものです。

AI の「数学能力」とは、単にテストで正解したかどうかではなく、**「問題が難しくなったら、どこで間違え始めるか」という関係性です。
AI の「危険な性質(プロペンシティ)」とは、
「誰かが悪意を持って命令したら、どこまで従うか」**という関係性です。

この「関係性」を測らない限り、AI が超人的な能力を持った時や、人間がテストできない危険な領域(核兵器の設計など)でどうなるかは、永遠にわかりません。

3. 新しい「ものさし」の作り方:4 つのステップ

論文は、科学的に正しい測定を行うために、以下の 4 つのステップを提案しています。

ステップ 1:「誰」を測るか決める

ガラスを測る時、箱に入っているガラスを測るのか、箱ごと測るのかを明確にする必要があります。
AI も同じで、「素のモデル」を測るのか、「安全フィルターを通した製品」を測るのかを明確にしないと、意味のある比較ができません。

ステップ 2:「なぜ」そうなるかの仮説を立てる

「割れやすさ」を測るには、「落下の高さ」や「衝撃の強さ」が原因だと仮説を立てます。
AI の場合も同様です。

  • 能力の場合: 「問題の難しさ」は「計算ステップの数」や「数字の桁数」で決まるはずだ、と仮説を立てます。
  • 危険性の場合: 「危険な行動」は「ユーザーの脅迫」や「道徳的な正当化」によって引き起こされるはずだ、と仮説を立てます。

ステップ 3:原因を「数値化」する

仮説を立てた原因(例:落下の高さ、ユーザーの脅迫の度合い)を、AI の性能とは無関係に、事前に定義されたスケールで測れるようにします。
「AI が間違えたから難しい」という後付けではなく、「この問題は 10 ステップの計算が必要だから、難易度レベル 5」というように、問題自体の性質を先に決めます。

ステップ 4:変化を「地図」にする

最後に、原因(難易度や脅迫の度合い)を少しずつ変えながら、AI がどう反応するかを丁寧に測ります。

  • 「難易度が 1 なら 99% 正解、難易度が 5 なら 50% 正解、難易度が 10 なら 0% 正解」という**「反応の地図」**を作ります。

この「地図」があれば、テストした範囲を超えた「難易度 100」の状況でも、AI がどうなるかを予測できます。これが真の「科学」です。

4. まとめ:便利さから、正しさへ

今の AI 評価は、**「ランキング表」や「平均点」**という便利な道具に頼りすぎています。それは、料理の味を「一口」で判断するのと同じで、手軽ですが、本質を捉えていません。

この論文が言いたいのは、**「AI の未来と安全を守るためには、面倒でも『なぜそうなるか』を科学的に解明し、原因と結果の関係を丁寧に地図化する必要がある」**ということです。

  • 今のやり方: 「この AI はテストで 80 点だったから、優秀だ!」(便利だが、嘘つき)
  • 新しいやり方: 「この AI は、問題が 10 ステップを超えると急に間違え始める性質がある。だから、100 ステップの問題には対応できないと予測できる」(面倒だが、真実)

AI が社会に深く入り込むこれからの時代、私たちは「楽な数字」ではなく、「科学的な真実」に基づいた新しいものさしを作る必要があるのです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →