Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

この論文は、LLM の内部状態が出力の真偽ではなく「パラメトリック知識の想起」を反映しており、統計的関連性に駆動された「連想ハルシネーション」は事実と区別がつかないが、知識の欠如に起因する「非連想ハルシネーション」は検出可能であることを示している。

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng

公開日 2026-03-09
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 結論:AI は「嘘」を見分けるのが苦手です

最近の研究では、「AI の内部の信号(脳内の電気信号のようなもの)を見れば、それが事実か嘘か(ハルシネーション)が分かる」と言われていました。しかし、この論文は**「それは半分しか正しくない」**と指摘しています。

AI の内部信号は、**「事実かどうか」ではなく、「記憶を呼び出しているかどうか」**を反映しているだけなのです。

🧠 3 つの「知識のタイプ」という新しい分類

論文では、AI が回答する時のパターンを、**「3 つの料理」**に例えて分類しました。

1. 事実の関連(Factual Associations)

  • 例: 「オバマ元大統領はどの都市で勉強しましたか?」→「シカゴ」
  • 状態: 正解です。
  • AI の脳内: 「オバマ」と「シカゴ」という記憶が強く結びついています。AI はその記憶を**「本物として」**呼び出しています。

2. 関連する嘘(Associated Hallucinations / AH)

  • 例: 「オバマ元大統領はどの都市で生まれたのですか?」→「シカゴ」(実際はホノルル)
  • 状態: 嘘ですが、「オバマ」と「シカゴ」の結びつきは本物です。
  • AI の脳内: 事実のケースと全く同じ「記憶の呼び出し方」を使っています。
    • 重要ポイント: AI は「オバマ=シカゴ」という強い記憶を持っているため、質問が「生まれた場所」か「勉強した場所」かを区別できず、同じ記憶を引っ張り出してしまいます。
    • 結果: 内部の信号を見ても、「正解」と「この嘘」は区別がつかないのです。

3. 無関係な嘘(Unassociated Hallucinations / UH)

  • 例: 「ブレンダ・ジョンソンという人はどの都市で生まれましたか?」→「ポートランド」(実際は知らない)
  • 状態: 嘘です。
  • AI の脳内: 「ブレンダ・ジョンソン」という名前自体、AI の記憶(パラメータ)にありません。AI は**「記憶を呼び出していない」**状態で、適当に(あるいは統計的な確率で)「ポートランド」と言っています。
  • 結果: 内部の信号は、事実のケースとは全く異なる形をしています。

🔍 なぜ「嘘発見器」は失敗するのか?

これまでの研究では、「AI の内部信号を分析すれば嘘を見つけられる」と期待されていました。しかし、この論文は以下のような**「落とし穴」**を指摘しています。

  • 関連する嘘(AH)は「本物そっくり」:
    先ほどの「オバマ=シカゴ」の例のように、AI が**「強い記憶」に基づいて嘘をついている場合**、その脳内の動きは「正解を言っている時」とほぼ同じです。

    • 例え話: 「本物のパスポート」と「精巧に作られた偽造パスポート」は、見た目がそっくりすぎて、普通の検査官(内部信号を調べる方法)では見分けがつかないのと同じです。
  • 無関係な嘘(UH)は「バレバレ」:
    記憶がないのに適当に答えた場合は、脳内の動きがバラバラで、すぐに「嘘だ!」と分かります。

    • 例え話: 偽造パスポートを作ろうとして、顔写真も名前も適当に書いたような「粗悪な偽物」は、一見すればすぐに見破れます。

つまり、現在の技術では「記憶がない時にでたらめを言う嘘(UH)」は検知できますが、「記憶を過信して間違ったことを言う嘘(AH)」は、正解と区別できないのです。


🛠 今後の課題:AI に「知らない」と言わせるのは難しい

この発見は、AI を安全に使うための「拒否(Refusal)」機能(「分かりません」と言うように教えること)にも大きな影響を与えます。

  • 無関係な嘘(UH)の場合:
    「知らないこと」の信号が明確なので、AI に「分からない時は『分かりません』と言いなさい」と教えると、うまく機能します(82% の確率で拒否できました)。

  • 関連する嘘(AH)の場合:
    「知っているつもりで間違える」状態なので、内部の信号が「知っている時」と同じです。そのため、AI は**「これは知っていることだ」と思い込んでしまい、「分からない」と言うことを学べません**(拒否率はわずか 33%)。

💡 まとめ:私たちが知るべきこと

  1. AI は「自分が嘘をついている」と自覚していない。
    内部の信号は「記憶を呼び出しているか」しか教えてくれないからです。
  2. 最も危険なのは「関連する嘘」です。
    人気のある有名人や有名な事柄について、AI が「知っているふりをして」間違った情報を話すパターンは、現在の技術では見分けがつかず、非常に信頼性が高いように見えて実は危険です。
  3. 解決策は「内部チェック」だけではない。
    AI 自身の脳内信号に頼るだけでは不十分です。外部の事実確認(検索エンジンや人間によるチェック)を組み合わせる必要があります。

この論文は、**「AI は完璧な嘘発見器ではない」**と警告し、私たちが AI を使う際には、特に「有名な話」や「自信満々に語られる話」に対して、より慎重な目を持つべきだと教えてくれています。