Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 結論：AI は「嘘」を見分けるのが苦手です

最近の研究では、「AI の内部の信号（脳内の電気信号のようなもの）を見れば、それが事実か嘘か（ハルシネーション）が分かる」と言われていました。しかし、この論文は**「それは半分しか正しくない」**と指摘しています。

AI の内部信号は、**「事実かどうか」ではなく、「記憶を呼び出しているかどうか」**を反映しているだけなのです。

🧠 3 つの「知識のタイプ」という新しい分類

論文では、AI が回答する時のパターンを、**「3 つの料理」**に例えて分類しました。

1. 事実の関連（Factual Associations）

例：「オバマ元大統領はどの都市で勉強しましたか？」→「シカゴ」
状態： 正解です。
AI の脳内： 「オバマ」と「シカゴ」という記憶が強く結びついています。AI はその記憶を**「本物として」**呼び出しています。

2. 関連する嘘（Associated Hallucinations / AH）

例：「オバマ元大統領はどの都市で生まれたのですか？」→「シカゴ」（実際はホノルル）
状態： 嘘ですが、「オバマ」と「シカゴ」の結びつきは本物です。
AI の脳内： 事実のケースと全く同じ「記憶の呼び出し方」を使っています。
- 重要ポイント： AI は「オバマ＝シカゴ」という強い記憶を持っているため、質問が「生まれた場所」か「勉強した場所」かを区別できず、同じ記憶を引っ張り出してしまいます。
- 結果： 内部の信号を見ても、「正解」と「この嘘」は区別がつかないのです。

3. 無関係な嘘（Unassociated Hallucinations / UH）

例：「ブレンダ・ジョンソンという人はどの都市で生まれましたか？」→「ポートランド」（実際は知らない）
状態： 嘘です。
AI の脳内： 「ブレンダ・ジョンソン」という名前自体、AI の記憶（パラメータ）にありません。AI は**「記憶を呼び出していない」**状態で、適当に（あるいは統計的な確率で）「ポートランド」と言っています。
結果： 内部の信号は、事実のケースとは全く異なる形をしています。

🔍 なぜ「嘘発見器」は失敗するのか？

これまでの研究では、「AI の内部信号を分析すれば嘘を見つけられる」と期待されていました。しかし、この論文は以下のような**「落とし穴」**を指摘しています。

関連する嘘（AH）は「本物そっくり」：
先ほどの「オバマ＝シカゴ」の例のように、AI が**「強い記憶」に基づいて嘘をついている場合**、その脳内の動きは「正解を言っている時」とほぼ同じです。
- 例え話： 「本物のパスポート」と「精巧に作られた偽造パスポート」は、見た目がそっくりすぎて、普通の検査官（内部信号を調べる方法）では見分けがつかないのと同じです。
無関係な嘘（UH）は「バレバレ」：
記憶がないのに適当に答えた場合は、脳内の動きがバラバラで、すぐに「嘘だ！」と分かります。
- 例え話： 偽造パスポートを作ろうとして、顔写真も名前も適当に書いたような「粗悪な偽物」は、一見すればすぐに見破れます。

つまり、現在の技術では「記憶がない時にでたらめを言う嘘（UH）」は検知できますが、「記憶を過信して間違ったことを言う嘘（AH）」は、正解と区別できないのです。

🛠 今後の課題：AI に「知らない」と言わせるのは難しい

この発見は、AI を安全に使うための「拒否（Refusal）」機能（「分かりません」と言うように教えること）にも大きな影響を与えます。

無関係な嘘（UH）の場合：
「知らないこと」の信号が明確なので、AI に「分からない時は『分かりません』と言いなさい」と教えると、うまく機能します（82% の確率で拒否できました）。
関連する嘘（AH）の場合：
「知っているつもりで間違える」状態なので、内部の信号が「知っている時」と同じです。そのため、AI は**「これは知っていることだ」と思い込んでしまい、「分からない」と言うことを学べません**（拒否率はわずか 33%）。

💡 まとめ：私たちが知るべきこと

AI は「自分が嘘をついている」と自覚していない。
内部の信号は「記憶を呼び出しているか」しか教えてくれないからです。
最も危険なのは「関連する嘘」です。
人気のある有名人や有名な事柄について、AI が「知っているふりをして」間違った情報を話すパターンは、現在の技術では見分けがつかず、非常に信頼性が高いように見えて実は危険です。
解決策は「内部チェック」だけではない。
AI 自身の脳内信号に頼るだけでは不十分です。外部の事実確認（検索エンジンや人間によるチェック）を組み合わせる必要があります。

この論文は、**「AI は完璧な嘘発見器ではない」**と警告し、私たちが AI を使う際には、特に「有名な話」や「自信満々に語られる話」に対して、より慎重な目を持つべきだと教えてくれています。

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

🕵️‍♂️ 結論：AI は「嘘」を見分けるのが苦手です

🧠 3 つの「知識のタイプ」という新しい分類

1. 事実の関連（Factual Associations）

2. 関連する嘘（Associated Hallucinations / AH）

3. 無関係な嘘（Unassociated Hallucinations / UH）

🔍 なぜ「嘘発見器」は失敗するのか？

🛠 今後の課題：AI に「知らない」と言わせるのは難しい

💡 まとめ：私たちが知るべきこと

1. 問題提起 (Problem)

2. 手法とアプローチ (Methodology)

2.1 新しいハルシネーションの分類体系

2.2 因果的介入によるラベリング

2.3 機械的解釈性による分析

3. 主要な発見と結果 (Key Findings & Results)

3.1 内部状態は「真実性」ではなく「知識想起」を反映する

3.2 既存の検出手法の限界

3.3 拒否チューニングの汎化性の制約

4. 論文の貢献と意義 (Contributions & Significance)

結論

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

🕵️‍♂️ 結論：AI は「嘘」を見分けるのが苦手です

🧠 3 つの「知識のタイプ」という新しい分類

1. 事実の関連（Factual Associations）

2. 関連する嘘（Associated Hallucinations / AH）

3. 無関係な嘘（Unassociated Hallucinations / UH）

🔍 なぜ「嘘発見器」は失敗するのか？

🛠 今後の課題：AI に「知らない」と言わせるのは難しい

💡 まとめ：私たちが知るべきこと

1. 問題提起 (Problem)

2. 手法とアプローチ (Methodology)

2.1 新しいハルシネーションの分類体系

2.2 因果的介入によるラベリング

2.3 機械的解釈性による分析

3. 主要な発見と結果 (Key Findings & Results)

3.1 内部状態は「真実性」ではなく「知識想起」を反映する

3.2 既存の検出手法の限界

3.3 拒否チューニングの汎化性の制約

4. 論文の貢献と意義 (Contributions & Significance)

結論

関連論文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models