Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI（大規模言語モデル）が『わからない』と言っているとき、その『わからない』の本当の重みと種類を、もっと正確に読み取る方法」**を提案するものです。

従来の AI は「自信度 80%」のように、単一の数字で自分の確信度を伝えようとしますが、これには大きな落とし穴があります。この論文は、「不確実性（Uncertainty）」を「不確かな確率（Imprecise Probabilities）」という新しいレンズを通して見ることで、AI の本音を引き出す方法を提案しています。

以下に、専門用語を排し、日常の例え話を使って解説します。

1. 従来の方法の「失敗」：AI は「嘘」をついている？

まず、これまでの AI の「自信度」がなぜ問題なのかを、**「天気予報」**に例えてみましょう。

従来の AI（ヴァンilla）：
「明日は雨です。自信度 80% です！」と言います。
- 問題点 1（曖昧な質問）： もし質問が「明日、傘は必要？」で、天気図が「雨か曇りか、どっちか分からない」状態だった場合、AI は「80%」と平気で言います。でも、実際は「雨の可能性も曇りの可能性も半々」なのに、AI は「どちらか一方が正しい」と決めつけているように見えます。
- 問題点 2（ヒントが増えると）： 天気予報のヒント（過去のデータ）が 1 個しかない時と、100 個ある時で、AI の「自信度」が変わらないことがあります。本来ならヒントが増えれば「もっと確実になるはず」なのに、AI は「あ、やっぱり 80% かな？」とそのまま言います。
- 問題点 3（自分の判断との矛盾）： 「A が正解だと 80% 自信がある」と言いながら、実際に選ぶ答えは「B」だったりします。これは「自信」と「行動」がズレています。

このように、AI は「確実な数字」を無理やり出そうとして、**「本当はよく分かっていない（曖昧さ）」や「情報が足りていない（無知）」**という 2 つの異なる種類の「不安」をごちゃ混ぜにしてしまっています。

2. 新しい方法：不確かな確率（Imprecise Probabilities）の魔法

この論文が提案するのは、**「確率を 1 つの数字（例：80%）ではなく、『幅』で表す」**という考え方です。

これを**「射的（的当て）」**に例えてみましょう。

従来の AI：
「的の中心に当たると**80%**の確信があります！」と言います。
- これは、的の中心がどこか、AI がよく分かっていない場合でも、無理やり「80%」という点で表現してしまいます。
新しい AI（不確かな確率）：
「的の中心に当たる確率は、最低 20% から最大 80% の間にあると思います」と言います。
- 幅（20%〜80%）の意味： この「幅」が、AI が**「どれくらい情報が足りていないか（無知さ）」**を表します。
  - 幅が狭い（例：75%〜85%）＝「情報は十分、自信がある」。
  - 幅が広い（例：20%〜80%）＝「情報が不足している、よく分かっていない」。

このように、**「確信度（1 次不確実性）」と「その確信度がどれくらい揺らぎがあるか（2 次不確実性）」**を分けて伝えることで、AI の本音が見えてきます。

3. 具体的な 3 つのメリット

この新しい方法を導入すると、以下のような「魔法」が起きるそうです。

① 曖昧な質問を見分ける（「どっちも正解かも」の発見）

例：「2019 年のクリケット・ワールドカップの開催国は？」
- 正解は「イングランドとウェールズの共催」ですが、選択肢が「イングランド」「ウェールズ」「イギリス」「インド」に分かれていると、AI は迷います。
- 従来の AI： 「イングランドが正解だと 50%、ウェールズが 50%」と、まるで「どっちか一方が正解」であるかのように振る舞います。
- 新しい AI： 「イングランドが正解かもしれない（下限 20%）、でもウェールズも正解かもしれない（上限 80%）」と、**「質問自体が曖昧で、どちらもあり得る」**という幅を表現します。これにより、人間は「あ、この質問は答えが一つじゃないんだ」と気づけます。

② 学習効果の可視化（「ヒントが増えれば安心感が増す」）

例：暗号解読ゲームで、ヒントを 1 つ与える時と、100 個与える時。
- 従来の AI： ヒントが増えても「自信度」が変わらず、高いまま（または低いまま）で止まってしまいます。
- 新しい AI： ヒントが増えるにつれて、「確率の幅（20%〜80%）」が狭まっていき（例：75%〜85%）、AI が「あ、これで分かった！」と安心している様子が数値でわかります。

③ 自己矛盾の解消（「言っていることとやっていることの一致」）

AI が「A が正解だと確信している」と言いながら「B」を選ぶような矛盾がなくなります。
新しい方法では、AI は**「最も確実な下限（一番低い確信）」**に基づいて判断するよう促されます。これにより、「確信度」と「実際の選択」が一致し、AI の判断がより信頼できるものになります。

4. 結論：AI との対話をより「賢く」する

この論文の核心は、**「AI に『確実な数字』を強要するのをやめ、代わりに『幅のある答え』を許容する」**という姿勢の転換です。

従来のアプローチ： 「100% 確実か？80% 確実か？」と、AI を「点」で測ろうとする。
新しいアプローチ： 「どのくらい確実で、どのくらい揺らぎがあるか？」と、AI を「幅」で測る。

これにより、AI は「わからないこと」を「わからない」と正直に伝えられるようになり、人間は AI の回答を盲目的に信じるのではなく、「この部分は幅が広いから、もう一度確認しよう」といったより賢い判断を下せるようになります。

一言で言えば：
「AI に『自信』という名前を付けずに、代わりに『不安の範囲』を教えてもらうことで、AI との会話をより安全で、賢く、信頼できるものにする方法」です。

Each language version is independently generated for its own context, not a direct translation.

論文要約：Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities

（不確実な確率を用いた大規模言語モデルの高次不確実性の言語化）

1. 背景と問題提起

大規模言語モデル（LLM）の出力に対する不確実性定量化（UQ）は、ハルシネーション検出や推論強化など、多くの下流タスクにおいて重要です。しかし、既存の「古典的確率論的枠組み」に基づく不確実性抽出手法（Vanilla Uncertainty）には、実用的なシナリオにおいて以下の3 つの主要な失敗モードが報告されています。

曖昧な質問への対応不足: 質問の文脈が不十分で複数の正解が考えられる場合（例：「2019 年のクリケット・ワールドカップの開催国は？」→イングランドとウェールズの両方）、既存手法はモデルの曖昧さを適切に反映できず、明確な質問と曖昧な質問を区別できません。
コンテキスト学習（ICL）における不整合: 例示（in-context examples）を増やすと予測誤差は減少しますが、既存の不確実性スコアは依然として高く平坦なまま変化しません。これは、モデルが学習による不確実性の低減を反映できていないことを示しています。
自己反省（Self-reflection）との矛盾: モデルが回答を選択し、その理由を説明する際、抽出された不確実性スコアが実際の選択行動（ベイズ的合理性）と整合しないことが多く見られます。

これらの失敗は、LLM が不確実性を表現できないからではなく、「不確実性を単一の正確な確率値（Point Estimate）として表現する」という前提そのものが不適切であることに起因すると著者は指摘します。

2. 提案手法：不確実確率（Imprecise Probabilities, IP）に基づくアプローチ

著者らは、**不確実確率（Imprecise Probabilities, IP）**の枠組みを導入し、LLM から「不確実性に関する不確実性（高次不確実性）」を言語化して抽出する手法を提案しました。

核心的な概念

第一階の不確実性（First-order Uncertainty）: 質問そのものが持つ本質的なランダム性（例：正解が複数ある場合の確率分布）。これは従来の確率値で捉えられます。
第二階の不確実性（Second-order Uncertainty）: 確率モデル自体の不確実性（無知や曖昧さ）。IP ではこれを確率区間 $[p(y), \bar{p}(y)]$ として表現します。区間の幅が広いほど、モデルがその事象について「無知」であるか、あるいは「判断材料が不足している」ことを示します。

具体的な手法

LLM から直接数値的な不確実性を言語化（Verbalization）させるための、汎用的なプロンプトと後処理プロシージャを設計しました。

第一階不確実性の抽出（De Finetti 法）:
- モデルに「賭けの公正な価格（Buy Price）」を各回答に対して設定させます（プロンプト 1）。
- 確率の公理（非負性、正規化）を満たすよう検証し、整合的な確率分布を導出します。
第二階不確実性の抽出（IP 表現）:
- 確率区間（PROBINT）: モデルに各回答の「下限確率（最も確からしい最小値）」と「上限確率（正当化可能な最大値）」を直接報告させます（プロンプト 2）。
- クレダル集合（CREDAL）: 複数のモデル（または同一モデルの異なるシード）からの予測分布を集約し、その最小・最大値を区間として定義します。
- 可能性関数（POS）: 候補回答を除外する可能性を評価し、非加法的な可能性スコアを抽出します。
指標の計算（Maximum Mean Imprecision, MMI）:
- 抽出された区間や集合から、スカラー値としての不確実性スコアを算出します。区間の幅や、総変動距離に基づく MMI 近似式を用いることで、計算コストを抑えつつ高次不確実性を定量化します。

3. 主要な貢献

高次不確実性の言語化の初実装: LLM 向けに不確実確率（IP）を具体化した初のフレームワークを提案し、プロンプトエンジニアリングと後処理アルゴリズムを提供しました。
不確実性の分離（Disentanglement）: 第一階（本質的ランダム性）と第二階（無知・曖昧さ）を明確に分離して抽出する手法を確立しました。
低コストかつ高信頼性: サンプリングベースの手法（多数回生成して分布を推定）と比較して、API コストを大幅に削減しつつ、より整合性の高い不確実性評価を実現しました。

4. 実験結果

合成データセットと実世界の QA ベンチマーク（MAQA, AmbigQA, MMLU-Pro など）を用いた評価で以下の結果が得られました。

曖昧性の検出: 曖昧な質問と明確な質問を区別する能力において、提案手法（特に De Finetti 法）は既存手法（Vanilla, Semantic Entropy など）を大幅に上回りました（AUROC 向上）。
予測誤差との追従: コンテキスト学習（ICL）において、例示数が増えるにつれて予測誤差が減少する際、提案手法（PROBINT）は不確実性スコアも適切に低下させました。一方、既存手法は不確実性が低下しないまま固定される傾向がありました。
自己整合性: モデルが選択した回答と、不確実性スコアに基づく意思決定（最大最小則など）の整合性が、提案手法の方が高いことが確認されました。
コスト効率: サンプリングベースの手法に比べ、API 呼び出し回数が少なく、コスト効率に優れています。

5. 意義と結論

本研究は、LLM の不確実性を「単一の確率値」として捉える従来のパラダイムを転換し、**「不確実性そのものに対する不確実性（区間）」**を表現する枠組みを確立しました。

実用性: 曖昧な質問や知識不足の状況において、モデルが「わからない」または「判断が難しい」ことをより忠実にユーザーに伝達できます。
意思決定支援: 下流タスク（医療診断、自動運転など）において、モデルの信頼性をより正確に評価し、適切な棄権（Abstention）や人間への委譲を促すことで、安全性と信頼性を向上させます。
理論的基盤: ベイズ推論の限界を超え、不確実な情報下での意思決定を支援する不確実確率の理論を LLM の実世界応用へと拡張しました。

今後は、翻訳や要約など Q&A 以外のタスクへの適用や、モデルがプロンプトを正しく解釈していることの検証など、さらなる拡張が課題として残されています。

Verbalizing LLM's Higher-order Uncertainty via Imprecise Probabilities