Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）が本当に何を知っているのか、そしてどれくらい自信を持っているのかを、もっと簡単で正確に測る新しい方法」**を提案した研究です。

従来の方法には「AI に文章を書かせて、その答えが正しいかチェックする」というやり方がありましたが、これには「答えを作るのに時間がかかる」「AI が後から無理やり理由をつけてごまかす（後付けの正当化）」「AI がどれくらい迷っているかがわからない」という欠点がありました。

この論文では、**「AI が次の言葉を選ぶ瞬間の『驚き』」**を測ることで、これらの問題を解決しようとしています。

以下に、わかりやすい比喩を使って解説します。

1. 核心となるアイデア：「驚き（Surprisal）」の測定

【比喩：お茶会の予想】
Imagine 想像してください。あなたが友達と喫茶店で会話しているとします。

パターン A: 友達が「今日は天気がいいね。だから、外で散歩しよう」と言いました。
- あなたは「なるほど、散歩か」と思います。これは**「驚き」が少ない**（自然な流れ）です。
パターン B: 友達が「今日は天気がいいね。だから、外で潜水しよう」と言いました。
- あなたは「えっ、潜水？！」と驚きます。これは**「驚き」が大きい**（不自然な流れ）です。

この論文では、AI に対して「散歩」や「潜水」という言葉が、文脈から見てどれくらい「自然（確率が高い）」か、どれくらい「意外（確率が低い）」かを数値で測ります。これを**「驚き（Surprisal）」**と呼びます。

驚きが小さい ＝ AI はその答えを「知っている」「自信がある」。
驚きが大きい ＝ AI はその答えを「知らない」「不自然だ」と感じている。

2. 従来の方法 vs 新しい方法

❌ 従来の方法：「AI に作文させる」

やり方: 「この文は因果関係がありますか？答えを書いて」と聞いて、AI に「はい、あります」と文章を書かせます。
問題点:
- 時間がかかる: 文章を生成するまで待たないといけない。
- 嘘をつく: AI は「はい」と言いつつ、実は中身はよくわかっていないのに、後から「だって〜だから」と無理な理由をつけて説明することがある（後付けの正当化）。
- 迷いがわからない: 「はい」と言っただけでは、AI が「100% 自信がある」のか「たまたま選んだ」のかわからない。

✅ 新しい方法：「AI の『驚き』を測る」

やり方: AI に文章を書かせません。代わりに、「この文の続きは『はい』か『いいえ』のどちらが自然か？」という選択肢だけを AI に提示し、AI がそれぞれの選択肢に対して「どれくらい驚いたか（確率）」を瞬時に読み取ります。
メリット:
- 瞬時: 文章を生成せず、確率だけを見るので非常に速い。
- 本音: AI が生成した「言い訳」ではなく、脳（内部の知識）が直接反応した「本音」に近い数値が見られる。
- 迷いが見える: これが今回の最大の功績です。

3. 最大の功績：「驚き」のグラフで「迷い」を可視化する

この論文のすごいところは、単に「正解か不正解か」だけでなく、**「AI がどれくらい迷っているか」**まで見えるようにしたことです。

【比喩：山と谷の地形】
AI が「1 から 5 までの評価」をするとき、それぞれの数字に対する「驚き」をグラフにすると、地形のようになります。

自信がある場合（鋭い山）:
- グラフが「V 字型」になって、特定の数字（例えば「5」）で急激に谷（驚きが最小）になっています。
- 意味: 「これは間違いなく 5 だ！」と AI は確信しています。
迷っている場合（平坦な高原）:
- グラフが「お椀型」や「平坦な高原」のようになっています。どの数字も「驚き」があまり変わらない。
- 意味: 「うーん、3 でも 4 でも 5 でも、どれもあり得るな…」と AI が本当に迷っています。

この「谷の形」や「平坦さ（エントロピー）」を見ることで、**「AI が自信を持って間違っているのか、それとも本当に問題が曖昧で迷っているのか」**を区別できるようになります。

4. 4 つの分野で試してみた結果

研究者たちは、この方法を 4 つの異なる分野でテストしました。

社会・生態・技術の分類（SETS）:
- 「公園」や「ウイルス」といった言葉が、社会・自然・技術のどれに近いかを 1〜9 点で評価。
- 結果: 文脈（例：「春のウイルス」か「パソコンのウイルス」か）によって、AI の「驚き」の谷が正しく移動しました。小さな AI は文脈を読めませんでしたが、大きな AI は文脈に合わせて答えを変えました。
因果関係の発見:
- 「雨が降ったから道が濡れた」は因果関係か？
- 結果: 明確な因果関係では「はい」に谷が深く、曖昧な相関関係（「勉強すると成績が良い」）では谷が浅く平坦になり、AI の迷いを正確に捉えました。
比喩表現の検出:
- 「言葉が空に浮かんでいた」は比喩か？
- 結果: 文字通り（物理的に）と比喩（意味的に）で、AI の「驚き」のパターンが明確に違いました。
定性データのコーディング:
- アンケートの回答に、事前に決めた「コード（ラベル）」を当てはめる作業。
- 結果: AI が「このコードは当てはまるかな？」と迷っているケースを、平坦なグラフとして検出できました。

5. まとめ：なぜこれが重要なのか？

この研究は、**「AI の評価を、単なる『正解率』のチェックから、AI の『思考プロセス（確率分布）』の観察へ」**と進化させようとしています。

効率化: 文章を生成する手間が省けます。
透明性: AI が「どれくらい自信があるか」を数値で示せるため、人間が「この答えは AI が迷っているから、人間がもう一度確認しよう」と判断しやすくなります。
本音の抽出: AI が後から作り上げた「言い訳」ではなく、学習した知識そのものがどう反応しているかを見られます。

一言で言うと：
「AI に『答えを書いて』と命令して正誤を判定するのではなく、『次の言葉を選ぶ瞬間のドキドキ（驚き）』を測ることで、AI が何を本当に知っていて、どこで迷っているのかを、より速く、より深く理解しようという新しいアプローチの提案です。」

Each language version is independently generated for its own context, not a direct translation.

1. 問題提起 (Problem)

従来の LLM 評価手法には以下の限界がありました。

生成ベース評価の非効率性とバイアス: 従来のプロンプトベースの評価（モデルに回答を生成させる）は、テキスト生成に計算コストがかかり、モデルが生成する「後付けの正当化（post-hoc rationalizations）」が実際の判断プロセスを反映していない可能性があります。
不確実性の欠落: 二値分類（Yes/No）や単一の回答生成では、モデルの「不確実性（confidence/uncertainty）」を定量化することが困難です。モデルが自信を持って誤った回答をする場合や、本質的に曖昧なタスクでの振る舞いを捉えきれません。
最小ペア（Minimal Pairs）の適用範囲の狭さ: 言語モデルの知識を評価する「最小ペア手法」（文法的に正しい文と間違っている文の確率を比較する）は、主に文法性判断（二値）に限定されており、順序尺度（1-5 点など）や多様な応用分野（分類、コーディングなど）への拡張が不足していました。

2. 手法 (Methodology)

著者は、LLM の内部表現を直接探るために、**「驚き（Surprisal）」と「エントロピー（Entropy）」**を基盤とした評価フレームワークを提案しました。

2.1 核心となる概念

驚き (Surprisal): 情報理論における「自情報量」であり、 $S(x) = -\log P(x)$ で定義されます。モデルがあるトークン（回答候補）を生成する確率が低いほど、その「驚き」の値は高くなります。
最小ペアの拡張: 従来の「文法 vs 非文法」の二値比較から、**順序尺度（Ordinal Scales）**上のすべての選択肢に対する驚きを測定する手法へ拡張しました。
- 例：「1〜5 点で評価せよ」というタスクに対し、モデルが「1」「2」「3」「4」「5」の各トークンを生成する確率（およびそれに基づく驚き）をすべて計算します。
評価指標:
- 驚き曲線 (Surprisal Curve): 尺度上の各位置における驚きの値をプロットした曲線。最小値（最低の驚き）を持つ位置がモデルの「最も自然な回答」となります。
- エントロピー (Entropy): 選択肢全体にわたる確率分布の平均的な驚き。 $H(X) = -\sum P(x) \log P(x)$ $H (X) = - \sum P (x) lo g P (x)$ 。
  - 低いエントロピー: 特定の回答に確率が集中しており、モデルが自信を持っていることを示す。
  - 高いエントロピー: 確率が分散しており、モデルが不確実である、またはタスクが本質的に曖昧であることを示す。

2.2 実装の工夫

トークンの再正規化: モデルの語彙全体ではなく、事前に定義された回答候補（例：「1」から「5」）に限定して確率を再正規化し、強制選択実験のパラダイムを模倣します。
表面形式競争 (Surface Form Competition) への対処: 「Paris」と「 paris」など、トークン化の違いによるバイアスを防ぐため、プロンプトのフォーマット（先頭のスペースの有無など）を厳密に制御しました。

3. 主要な貢献 (Key Contributions)

最小ペアパラダイムの拡張: 二値の文法性判断から、順序尺度（1-5, 1-9 点など）を用いた分類・スコアリングタスクへの一般化を達成しました。
多分野での実証: 言語現象だけでなく、以下の 4 つの応用分野でフレームワークの有効性を検証しました。
- 社会・生態・技術システム（SETS）の分類・スコアリング
- 因果関係の記述の識別（二値および順序尺度）
- 比喩表現の検出（直喩・隠喩の識別）
- 帰納的コーディング（定性調査データのコード適用）
不確実性の定量的評価: 生成されたテキストではなく、内部の確率分布から導出されるエントロピーを用いることで、モデルの「自信」と「タスクの曖昧さ」を区別する手法を提示しました。
計算効率の向上: 回答生成を行わず、特定のトークンのログプロバビリティ（logits）を一度だけ読み取るだけで評価が完了するため、生成ベースの評価に比べて極めて高速です。

4. 実験結果 (Results)

Qwen2.5 シリーズ（3B, 7B, 14B）のモデルを用いた実験から以下の知見が得られました。

SETS スコアリング:
- 文脈（コンテキスト）によって意味が異なる同音異義語（例："spring"、"virus"）に対し、モデルは文脈に応じて適切なスコア（驚きの最小値）を割り当てました。
- 14B モデルは文脈による意味の曖昧さを正しく識別しましたが、3B モデルは文脈に関係なく固定されたスコアを割り当てる傾向があり、文脈理解に限界があることが示されました。
因果関係の識別:
- 明確なケース: 「雨は洪水を引き起こした」といった明確な因果関係では、モデルは「True」に対して低い驚きを示しました。
- 曖昧なケース: 「勉強する学生は成績が良い傾向にある」といった相関関係（因果ではない）では、驚き曲線が平坦になり、エントロピーが高くなりました。これはモデルが本質的な曖昧さを捉えていることを示唆します。
- モデルサイズと文脈: 小規模モデル（3B）は詳細な定義（文脈）を与えることで精度が向上しましたが、大規模モデル（14B）は文脈の有無にあまり影響されず、事前知識に依存していました。
比喩表現の検出:
- 比喩文と直喩文のペアにおいて、モデルは比喩文に対して高い比喩強度（低い驚き）を、直喩文に対して低い強度を割り当てました。
- 興味深いことに、指示微調整（Instruction Tuning）されたモデルよりも、ベースモデルの方が比喩検出の精度が高い場合があり、微調整が確率分布を歪める可能性が示唆されました。
定性的コーディング:
- 調査回答へのコード適用において、モデルはコードが適用可能か否かを確率分布で示しました。
- 14B-Instruct モデルが最も高い精度（75%）と F1 スコア（72.2%）を達成しました。
- エントロピーが高いケースは、人間がレビューが必要な「曖昧な事例」のフラグとして機能する可能性が示されました。

5. 意義と結論 (Significance & Conclusion)

評価パラダイムの転換: LLM の評価を「生成されたテキストの正誤」から「内部確率分布の構造」へとシフトさせることで、より効率的かつ深層的なモデルの理解を可能にします。
不確実性の活用: エントロピーを用いることで、モデルが「自信を持って間違っている」ケースと「本当に迷っている（曖昧な）ケース」を区別できる可能性があります。これは、人間によるレビューが必要なケースを特定する「ヒューマン・イン・ザ・ループ」システムにおいて重要な信号となります。
双過程理論との関連性: 著者は、この手法が人間の認知における「システム 1（直感的・自動的な処理）」にアクセスするものであり、生成ベースの推論（システム 2）とは異なる情報を提供すると仮説を立てています。
今後の課題:
- 生成ベースの評価との直接的な比較検証の不足。
- 異なるモデルやドメインにおけるエントロピーと精度の較正（Calibration）の必要性。
- 商用 API におけるログ確率へのアクセス制限（オープンウェイトモデルに依存している点）。

総じて、この論文は、LLM の「暗黙的な知識」と「不確実性」を、生成コストをかけずに定量的に評価するための強力なフレームワークを提示し、高リスクな意思決定や大規模な評価タスクにおける実用的なアプローチとして大きな可能性を示唆しています。