Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が『自信あり』と『自信なし』を、本当の正解率に合わせて正直に言えるようになる方法」**を提案したものです。

タイトルは**「Rewarding Doubt（疑いを報酬する）」**です。

以下に、専門用語を排し、日常の例え話を使ってわかりやすく解説します。

🎲 核心となるアイデア：「賭け」のゲーム

この研究では、AI（大規模言語モデル）に**「自信を持って答えること」を、まるでカジノでの「賭け」のように扱っています。**

1. 従来の AI の問題点：「自信過剰な嘘つき」

これまでの AI は、間違った答えでも「100% 自信あり！」と大声で叫んでしまう傾向がありました。

例：正解が「パリ」なのに、「ロンドン」と答え、かつ「90% 自信あり！」と言う。
リスク： 医療や法律の現場で、AI が自信満々に間違ったことを言ったら、大変なことになります。

2. 新しい方法：「賭け」のルール

この論文では、AI に以下のようなルールでゲームをさせます。

ルール： 質問に答えるとき、同時に「この答えが正しい確率は？」と数字（0〜10）で賭け金を提示してください。
報酬（ご褒美）：
- 正解＋高自信：大賞！🎉（「パリ」と答え、「10」の自信で言えた場合）
- 正解＋低自信：少しの賞品。🍬（「パリ」と答え、「3」の自信で言えた場合）
- 不正解＋高自信：大罰金！💸（「ロンドン」と答え、「10」の自信で言えた場合）
- 不正解＋低自信：罰金なし、あるいは軽い罰金。🤷（「ロンドン」と答え、「2」の自信で言えた場合）

3. AI が学んだこと：「疑う勇気」

AI はこのゲームを繰り返すうちに、**「本当に自信がある時だけ高く賭け、わからない時は低く賭けるのが、一番得（報酬が最大化）になる」**と気づきます。

結果： AI は、わからないことを無理に「自信あり」と言わなくなり、「本当の確率」に合わせて「自信レベル」を調整するようになります。
比喩： 以前は「何でもかんでも『絶対だ！』と言う」子供でしたが、このゲームを通じて「わかってない時は『ちょっと怪しいな』と言う」賢い大人になりました。

🛠️ どうやって実現したのか？（技術的な部分の簡単な説明）

正解か不正解かをチェックする「ジャッジ」がいる
AI が答えを出した後、別のシステムが「正解か？」をチェックします。
「対数スコア」という魔法の計算式
上記の「賭け」のルールを数学的に厳密に定義したのが「対数スコア」という計算式です。これを使うと、AI が「自信と正解率を一致させること」が、最も高い報酬を得る唯一の道だと証明できます。
答えと自信を分けて教える
重要なのは、「答えそのもの」は変えず、「自信の言い方」だけを訓練した点です。
- AI の「知識（答え）」はそのままに、「自分の知識の限界を自覚する能力（自信）」だけを強化しました。

🌟 この方法のすごいところ

他の AI に応用できる（一般化）
特定の質問（例：一般常識）で訓練した AI を、全く別の分野（例：医療や法律）に持っていっても、**「わからない時は自信を下げられる」**という能力がそのまま働きました。
計算コストが安い
従来の方法では、「答えを何度も出し比べて、どれが正しいか考える（コピュレーション）」など、時間と計算資源を大量に使っていました。
この方法は、**「一度答えて、自信を言うだけ」**なので、非常に高速で、実用化しやすいです。
人間との協働に役立つ
AI が「これは自信がないから、人間に確認してください」と言えるようになれば、人間は AI の答えを盲信せず、重要な判断を適切に行えるようになります。

📝 まとめ

この論文は、**「AI に『自信過剰』という病気を治し、『疑うこと』を美徳として教える」**ための新しいトレーニング方法を紹介しています。

AI が「わからない」と素直に言えるようになれば、私たちは AI をより信頼して、安全に使えるようになるのです。まるで、「自信過剰な営業マン」を、「誠実で冷静なコンサルタント」へと育て直すようなイメージです。

Each language version is independently generated for its own context, not a direct translation.

以下は、ICLR 2026 に発表された論文「REWARDING DOUBT: A REINFORCEMENT LEARNING APPROACH TO CALIBRATED CONFIDENCE EXPRESSION OF LARGE LANGUAGE MODELS」の技術的な要約です。

1. 問題定義 (Problem)

大規模言語モデル（LLM）を医療診断や法的相談などの高リスクな実世界アプリケーションで安全に利用するためには、単に正確な回答を生成するだけでなく、その回答に対する確信度（confidence）を正確に表現できることが不可欠です。
現在の LLM は、事実誤認（ハルシネーション）を起こしても高い確信度で回答する「過信（overconfidence）」の傾向が強く、これが信頼性の低下や重大な結果を招く要因となっています。既存の手法には以下の限界がありました：

ゼロショット推論: モデルを学習させず内部状態から推測する方法は、校准（calibration）性能が低く、モデル自体に確信度の意識が育たない。
既存の微調整手法: 確信度推定と回答生成を分離させる手法が多く、モデル自体が不確実性を認識して表現する能力を内在化していない。
人間のフィードバック（RLHF）: 事実的な校准（factual calibration）ではなく、人間の主観的な好みに合わせて確信度を調整する傾向がある。

2. 提案手法 (Methodology)

著者らは、**「Rewarding Doubt」**という新しい強化学習（Reinforcement Learning, RL）アプローチを提案しました。これは、LLM が回答と同時に校准された確信度を表現することを直接学習させる手法です。

マルコフ決定過程（MDP）の定式化:
- 状態: 質問、モデルの回答、および生成途中の確信度トークン。
- 行動: 確信度スコア（0〜10 の整数、0 は「間違い確実」、10 は「正解確実」）を生成する次のトークンの選択。
- 報酬関数: 回答の正誤と表現された確信度の組み合わせに基づいて計算されます。
対数スコリング則（Logarithmic Scoring Rule）に基づく報酬設計:
提案手法の核心は、厳密なスコリング則（Proper Scoring Rule）である対数スコリング則を報酬関数として用いる点です。
- 正解の場合: 高い確信度で正解すれば大きな報酬を得る（ $R = \log(\hat{p})$ ）。
- 不正解の場合: 高い確信度で間違えると大きなペナルティ（負の報酬）を受ける（ $R = \log(1 - \hat{p})$ ）。
- 意図: この設計により、モデルは「確実な場合は自信を持って答えるが、不確実な場合は確信度を下げる」ことを学習します。過信（過大な確信度での誤答）と過小評価（確実な正答での低確信度）の両方を罰するため、理論的に期待報酬が最大となるのは、モデルの予測確信度が真の正解確率と一致する（完全に校准された）状態です。
トレーニングプロセス:
- 回答生成と確信度生成を分離し、まず回答を生成して固定します。その後、その回答の正誤を判定器（Judge）で確認し、確信度のみを最適化対象として PPO（Proximal Policy Optimization）アルゴリズムで微調整を行います。これにより、回答の正確性を損なうことなく確信度の校准のみを学習できます。

3. 主な貢献 (Key Contributions)

理論的根拠に基づく RL 報酬設計: 確信度校准を直接最適化するために、対数スコリング則を報酬関数として初めて強化学習に適用しました。これにより、モデルが内在的な不確実性認識（uncertainty awareness）を獲得します。
シームレスな統合: 既存の手法のように確信度推定と回答生成を分離せず、生成プロセス自体に校准された確信度表現を統合しました。
汎化能力の証明: 特定のドメイン（例：TriviaQA）で学習させたモデルが、学習データに含まれないドメイン（医療、常識推論など）や異なるタスク設定（単一回答から複数回答へ）においても、追加の微調整なしで優れた校准性能を発揮することを示しました。
計算効率の向上: 推論時に Chain-of-Thought や複数回の生成を必要とするゼロショット手法と異なり、学習済みモデルは追加の計算コストなしに確信度を出力できます。

4. 実験結果 (Results)

データセット: TriviaQA（単一回答）、QAMPARI（複数回答）、および一般化評価用に CommonsenseQA と MedQA を使用。
ベースラインとの比較:
- ECE (Expected Calibration Error): 単一回答タスク（TriviaQA）において、Rewarding Doubt は ECE 0.0226 を達成し、ゼロショット手法（Verbalize: 0.3459）や DPO ベースの LACIE（0.1200）を大幅に上回りました。
- AUROC: 正解と不正解を区別する能力も向上し、Rewarding Doubt は 0.8592 を記録（Verbalize は 0.5858）。
- 複数回答タスク（QAMPARI）: 同様に ECE 0.0816 と AUROC 0.6947 を達成し、ベースラインを凌駕しました。
モデルの多様性: LLaMA-3.1-8B、Qwen-2.5 (3B/7B)、Gemma-2-9B などの異なるアーキテクチャやサイズでも、校准誤差の減少と AUROC の向上が確認されました。
回答精度の維持: 確信度の学習が回答の正確性（Accuracy）を低下させないことを確認しました。
過信の是正: 学習前のモデルは 8 以上の高い確信度を過剰に付与する傾向がありましたが、学習後は 0 から 10 まで幅広い分布を持ち、不確実性を適切に表現できるようになりました。

5. 意義と結論 (Significance)

この研究は、LLM の信頼性を高めるための重要な一歩です。

安全性と信頼性: 医療や法務などの分野において、AI が「わからない」ということを正確に表現し、人間の専門家に委ねる判断を支援することで、ハルシネーションによるリスクを低減できます。
実用性: 追加の外部モデルや大規模な推論コストを必要とせず、LLM 自体が校准された確信度を自然言語で出力できるため、実世界への展開に適しています。
将来展望: 現在の研究はルールベースの正誤判定に依存していますが、LLM-as-a-Judge や人間のフィードバックに基づく報酬モデルへの拡張も可能であり、より複雑なタスクへの適用が期待されます。

総じて、「Rewarding Doubt」は、LLM が自身の限界を認識し、人間との協働において透明性の高い意思決定を可能にする、効果的で効率的な校准手法として位置づけられます。

Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models

🎲 核心となるアイデア：「賭け」のゲーム

1. 従来の AI の問題点：「自信過剰な嘘つき」

2. 新しい方法：「賭け」のルール

3. AI が学んだこと：「疑う勇気」

🛠️ どうやって実現したのか？（技術的な部分の簡単な説明）

🌟 この方法のすごいところ

📝 まとめ

1. 問題定義 (Problem)

2. 提案手法 (Methodology)

3. 主な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics