Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

Each language version is independently generated for its own context, not a direct translation.

この論文は、AI（人工知能）が「嘘をついている」かどうかを、**「魔法のような暗号」ではなく、「領収書」**を使って見抜く新しい仕組みについて書かれています。

タイトルは『ツールの領収書、ゼロ知識証明ではない：AI エージェントのための実用的な幻覚検出』です。

以下に、難しい専門用語を避け、身近な例え話を使ってわかりやすく解説します。

🕵️‍♂️ 問題：AI は「いい加減な嘘」をつく

みなさんは、AI アシスタントに「アリスのメールを 3 通確認して」と頼んだと想像してください。
AI はこう答えます。

「はい、アリスさんから3 通のメールが見つかりました。件名は『締め切りについて』です」

ここで、AI が**「領収書」を出さずにこの話をしている場合、あなたは本当に 3 通見つかったのか、それとも AI が「3 通」という数字を勝手に想像して（幻覚を起こして）**言っているのか、どうやってわかりますか？

従来の AI は、自分が「メールを検索した」と言っただけで、実際には検索していなかったり、結果を捏造したりすることがあります。これを**「幻覚（ハルシネーション）」**と呼びます。

🚫 従来の解決策（ゼロ知識証明）は「重すぎる」

これまでも「AI が嘘をついていないか」を確認する方法はありました。それは**「ゼロ知識証明（ZK）」という、非常に高度な暗号技術を使う方法です。
これは、「AI が計算を正しく行ったこと」を数学的に証明する**ものです。

しかし、これには大きな欠点があります。

時間がかかる： 1 回の確認に数分かかることがあります。
高価： 特別な高性能なコンピュータが必要です。

私たちが AI に「1 秒以内で返事をしてほしい」と思っているのに、確認に数分かかっていては実用になりません。また、「計算が正しく行われたこと」は証明できても、「答えが正しいか（事実かどうか）」までは証明できません。
（例：AI が「3 通」という嘘を、完璧な計算プロセスで出しちゃったら、証明は「OK」になってしまうのです。）

💡 新しい解決策：NabaOS（ナバ OS）の「領収書」方式

この論文が提案する**「NabaOS」は、もっとシンプルで実用的なアプローチをとります。
インドの古代哲学（ニヤーヤ学派）の考え方をヒントに、「AI が何を知っているのか、その根拠（領収書）を確認する」**という仕組みです。

1. 「領収書（Receipt）」を発行する

AI が何かを調べたとき（例：メール検索）、AI 自体ではなく、裏で動くシステムが**「領収書」**を発行します。
この領収書には以下のようなことがハッキング不可能な形で記録されています。

「アリスのメールを検索した」
「結果は 3 通だった」
「検索した時刻」

AI はこの領収書を作れません（鍵を持っていないので）。だから、AI が「5 通見つかった」と言ったら、領収書と照らし合わせて**「嘘だ！領収書には 3 通と書いてある！」**と即座にバレます。

2. 「知識の分類」をする（哲学の活用）

NabaOS は、AI の答えをただ「正しい/間違っている」で判断するのではなく、**「どうやってその知識を得たか」**で分類します。インド哲学の分類を使っています。

直接見たもの（Pratyaks.a）： 領収書に「3 通」と書いてある事実。→ 最高レベルの信頼
推測（Anumana）： 「アリスは忙しそう」ということ。これはメールの内容から AI が推測したものです。→ 推測であることが明記される
他人の言葉（Shabda）： 「ニュースによると…」という外部情報。→ そのニュースサイトを実際に開いたか確認
何もなかった（Abhava）： 「メールは 0 通」という主張。→ 検索結果が空だったか確認

これにより、ユーザーは「AI は事実を言っているのか、それとも推測を言っているのか」が一目でわかります。

🏆 結果：速くて、正確で、安上がり

この仕組みを実験したところ、驚くほど良い結果が出ました。

嘘の発見率： 捏造された事実の**91%**を見抜けます。
スピード： 確認にかかる時間は15 ミリ秒（0.015 秒）以下。ユーザーは全く待たされません。
コスト： 追加費用はほぼゼロ。

従来の「ゼロ知識証明」が、**「裁判所での厳密な証拠提出」だとしたら、NabaOS は「スーパーのレシート」**のようなものです。
裁判所（ゼロ知識証明）は完璧ですが、毎日買い物（日常の AI 利用）で使うには重すぎます。一方、レシート（領収書）は手軽で、もし「1000 円だ」と言われても、レシートに 100 円と書いてあればすぐに嘘だとわかります。

🌟 まとめ：AI との新しい信頼関係

この論文が伝えたいのは、**「AI が『正しい』と言っているかどうか」だけでなく、「AI が『どうやってそれを知ったのか』を教えてくれること」**が、私たちにとって一番重要だということです。

AI が「領収書」を出せるなら、それは事実。
AI が「推測」だと明言するなら、それは推測。
AI が「領収書」を出さずに「事実」を言おうとしたら、それは嘘。

このように、AI の「知識の根拠」を可視化することで、私たちは AI を盲目的に信じるのではなく、**「どこまで信じていいか」**を自分で判断できるようになります。これが、これからの AI と人間が付き合うための、最も現実的で賢い方法だと提案されています。

カテゴリ (Sanskrit)	日本語訳	定義	検証方法	信頼度
Pratyakṣa	直接知覚	ツールの直接的な出力	レシートとの照合	最高
Anumāna	推論	ツールデータからの推論	前提の存在確認	中
Upamāna	比較・類推	比較やアナロジー	比較の妥当性確認	低
Śabda	証言	外部ソースの引用	ソースの取得確認	ソース依存
Abhāva	不在	結果がないという主張	空の結果セット確認	中
Ungrounded	根拠なし	証拠なしの意見	検証不可（フラグ）	最低

手法	検出率	偽陽性率 (FPR)	レイテンシ	コスト
NabaOS (提案)	91%	4%	+12 ms	$0
Self-Consistency	45%	12%	+3–5 秒	$0.03
RAG-Grounding	52%	18%	+1–2 秒	$0.01
Output Regex	35%	8%	+2 ms	$0

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

🕵️‍♂️ 問題：AI は「いい加減な嘘」をつく

🚫 従来の解決策（ゼロ知識証明）は「重すぎる」

💡 新しい解決策：NabaOS（ナバ OS）の「領収書」方式

1. 「領収書（Receipt）」を発行する

2. 「知識の分類」をする（哲学の活用）

🏆 結果：速くて、正確で、安上がり

🌟 まとめ：AI との新しい信頼関係

論文「Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents」の技術的サマリー

1. 問題定義：AI エージェントにおける「信頼のギャップ」と ZK 証明の限界

1.1 背景と課題

1.2 既存手法（ゼロ知識証明）の限界

2. 手法：NabaOS フレームワーク

2.1 認識論的分類（Pramāṇa Classification）

2.2 ツール実行レシート（Tool Execution Receipts）

2.3 検証プロトコル

2.4 深層エージェント向けクロスチェック

3. 主要な貢献

4. 実験結果

4.1 主要な性能指標

4.2 信頼レベルの較正

5. 意義と結論

5.1 技術的意義

5.2 限界と今後の課題

結論

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

🕵️‍♂️ 問題：AI は「いい加減な嘘」をつく

🚫 従来の解決策（ゼロ知識証明）は「重すぎる」

💡 新しい解決策：NabaOS（ナバ OS）の「領収書」方式

1. 「領収書（Receipt）」を発行する

2. 「知識の分類」をする（哲学の活用）

🏆 結果：速くて、正確で、安上がり

🌟 まとめ：AI との新しい信頼関係

論文「Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents」の技術的サマリー

1. 問題定義：AI エージェントにおける「信頼のギャップ」と ZK 証明の限界

1.1 背景と課題

1.2 既存手法（ゼロ知識証明）の限界

2. 手法：NabaOS フレームワーク

2.1 認識論的分類（Pramāṇa Classification）

2.2 ツール実行レシート（Tool Execution Receipts）

2.3 検証プロトコル

2.4 深層エージェント向けクロスチェック

3. 主要な貢献

4. 実験結果

4.1 主要な性能指標

4.2 信頼レベルの較正

5. 意義と結論

5.1 技術的意義

5.2 限界と今後の課題

結論

関連論文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem