Each language version is independently generated for its own context, not a direct translation.

VeriTrail：AI の「嘘」を見抜く探偵と、その足跡を追う方法

こんにちは。今日は、マイクロリサーチの研究者たちが発表した新しい論文「VeriTrail（ベリトレイル）」について、難しい専門用語を使わずに、わかりやすくお話しします。

この論文は、「AI が嘘をつく（ハルシネーション）」という問題に、単に「嘘だ！」と指摘するだけでなく、「いつ、どこで、どうやって嘘がつかれたのか」まで詳しく突き止めるという画期的な方法を提案しています。

1. 背景：AI はなぜ嘘をつくのか？

まず、AI（言語モデル）が文章を書くとき、必ずしも正しいことだけを言うとは限りません。特に「この資料に基づいて書いて」と指示しても、AI は自分の記憶や勘違いから、事実と違うことを平気で書いてしまうことがあります。これを「ハルシネーション（幻覚）」と呼びます。

以前は、AI が一度で文章を完成させる「シングルステップ」が主流でした。しかし、今は複雑なタスクをこなすために、AI が**「下書き→要約→分析→最終回答」**のように、**複数の段階（マルチステップ）**を踏むことが増えています。

🍳 料理の例え

シングルステップ（昔）： 料理人が材料を一度に全部見て、一発で料理を作る。
マルチステップ（今）： 料理人がまず「野菜を切る」、次に「煮込む」、そして「味付けをする」というように、工程を分けて作る。

マルチステップの方が、長い本や大量の資料を扱うのに有利ですが、**「どこかで間違えたら、その間違いが次の工程に伝染して、最終的な料理（回答）も台無しになる」**というリスクがあります。

2. VeriTrail の登場：ただ「嘘」を見つけるだけじゃない！

これまでの方法は、最終的な回答が正しいかどうかを「正解」と照らし合わせるだけでした。しかし、これでは**「なぜ間違えたのか」「どの工程でミスが起きたのか」**がわかりません。

VeriTrailは、まるで**「刑事ドラマの探偵」**のような役割を果たします。

従来の方法： 「犯人（嘘）は誰だ？」と最終結果だけを見て告発する。
VeriTrail： 「犯人（嘘）がいつ、どこで、誰と会って計画を立てたのか」まで足跡（トレイル）を追跡する。

🕵️‍♂️ 探偵の仕組み：逆方向の捜査

VeriTrail は、最終的な回答からスタートして、逆方向にさかのぼって証拠を集めます。

主張を分解する： 「X 社は 2020 年に 2 社を買収した」という主張があれば、それを「2020 年」「2 社」「買収」といった小さな部品（サブ主張）に分解します。
証拠を探す： その部品が、元の資料（本や記事）のどこに書かれているかを探します。
中間結果をたどる： もし最終回答の直前の「要約」に間違いがあれば、その「要約」を作った元の「章の要約」を調べ、さらにその前の「元の文章」まで遡ります。
停止条件： 「嘘っぽい」と判断が連続したら、そこで捜査を打ち切って「ここが間違いの始まりだ！」と報告します。

これにより、**「最終回答は嘘だった。でも、その原因は『要約』の段階で、元の文章を誤解したことにあった」**というように、**エラーの発生場所（どの工程か）**を特定できるのです。

3. 具体的な効果：なぜこれがすごいのか？

🗺️ 地図の例え

Imagine you are following a treasure map.

従来の方法： 宝の場所（最終回答）が間違っていたら、「ここは違う」と言うだけ。
VeriTrail： 「宝の場所が間違っていた。でも、地図の『A 地点』で曲がるべきところを間違えていたから、宝の場所もズレたんだ！」と教えてくれる。

これにより、ユーザーは以下のことができます：

信頼性の向上： 「あ、この部分は元の資料から正しく導き出されているんだ」と安心できる。
修正の容易さ： 「どこで間違えたか」がわかれば、その工程だけ直せばいいので、修正が簡単。

4. 新しいデータセット：探偵のための訓練場

この論文では、VeriTrail をテストするために、「中間結果（途中のメモや要約）」もすべて記録された新しいデータセットを世界で初めて作りました。

FABLES+： 本を要約するタスク。
DiverseSumm+： 複数のニュース記事から答えを見つけるタスク。

これらは、AI が「どこで嘘をついたか」を人間がチェックできるように設計されており、今後の AI 開発にとって非常に重要な「訓練用教材」となっています。

5. まとめ：透明性のある AI 社会へ

この研究の核心は、**「透明性」**です。

AI がブラックボックス（中身が見えない箱）から答えを出してくる時代から、**「なぜその答えになったのか、その過程が見える」**時代へと進化する第一歩です。

医療： 医師が AI の診断を信じるために、「どの文献に基づいているか」が見たい。
法律： 弁護士が AI の要約を使うために、「どの判例から導かれたか」を確認したい。
ビジネス： 顧客対応で AI が使う資料が、本当に正しい情報に基づいているか確認したい。

VeriTrail は、AI が「嘘をつかない」ようにするだけでなく、**「もし嘘をついたら、その痕跡をすべて残して、人間がチェックできるようにする」**という、非常に現実的で重要なアプローチです。

まるで、AI の思考プロセスに**「黒板」や「メモ帳」**をつけて、その内容をすべて見られるようにしたようなものです。これからの AI 利用において、この「足跡を追う技術」は、私たちが AI を安心して使うための鍵となるでしょう。

Each language version is independently generated for its own context, not a direct translation.

VeriTrail: 閉域ハルシネーション検出と追跡可能性の技術的サマリー

この論文は、大規模言語モデル（LLM）がソース資料に忠実に従うよう指示された場合でも、根拠のないコンテンツを生成する「閉域ハルシネーション（Closed-Domain Hallucination）」の問題、特に複数の生成ステップ（MGS: Multiple Generative Steps）を伴うプロセスにおける課題に焦点を当てています。Microsoft Research の著者らは、単なるハルシネーションの検出だけでなく、エラーが発生した箇所を特定し、出力がソースからどのように導き出されたかを追跡する「追跡可能性（Traceability）」の重要性を主張し、それを可能にする新しい手法VeriTrailを提案しました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義と背景

閉域ハルシネーションの課題

LLM は医療、法務、カスタマーサポートなど、ソース資料に基づいたコンテンツ生成に広く利用されています。しかし、指示通りソースに忠実であるべきにもかかわらず、モデルは事実と異なる情報を生成することがあります。これを「閉域ハルシネーション」と呼びます。

単一ステップ（SGS）と多段階ステップ（MGS）の違い

SGS (Single Generative Step): ソースから直接最終出力を生成するプロセス（例：RAG）。
MGS (Multiple Generative Steps): 中間出力が次のステップの入力として使用されるプロセス（例：階層的要約、GraphRAG）。
- 課題: MGS は長いドキュメントや大規模な資料集を扱う際に有効ですが、各ステップでエラーが発生・伝播するリスクが高まります。
- 既存手法の限界: 従来の忠実性評価手法は、最終出力のみをソースと比較するものであり、中間出力を考慮していません。そのため、MGS プロセスにおいて「どこでハルシネーションが発生したか（エラー局所化）」や「どのように導き出されたか（由来）」を特定することが困難です。
- 単純なアプローチの欠点: 最終出力を各中間出力と個別に比較するだけでは、複数の中間出力を統合して結論が導かれる場合（例：複数の記事から情報を統合して結論を出す）に機能せず、計算コストも膨大になります。

2. 提案手法：VeriTrail

VeriTrail は、MGS と SGS の両方に対応し、ハルシネーションの検出と追跡可能性を同時に提供する初の手法です。

2.1 概念的枠組み：有向非巡回グラフ（DAG）

生成プロセスを有向非巡回グラフ（DAG） $G = (V, E)$ としてモデル化します。

ノード ( $v$ ): テキストスパン（ソースからのもの、またはステップで生成されたもの）。
エッジ ( $u \to v$ ): ノード $u$ がノード $v$ を生成するステップの入力であることを示す。
ルートノード ( $V_0$ ): ソース資料（真の正解）。
ターミナルノード ( $v^*$ ): 最終出力。
中間ノード: ルートとターミナルの間のノード。

2.2 検証プロセス

VeriTrail は、最終出力から抽出された事実的クレーム（Claim）に対して、以下のステップで検証を行います。

サブクレームの分解: 複雑なクレームを、独立して検証可能な単純なサブクレームに分解します。
証拠選択（Evidence Selection）:
- 現在の検証対象ノード（初期はターミナルノードのソースノード）から、クレームの真偽を強く示唆する文を選択します。
- 文が選択されなかった場合、「Not Fully Supported（完全には支持されない）」と判定されます。
- 選択された文は、文脈を失わないよう要約され、次のステップで利用されます。
判定生成（Verdict Generation）:
- 選択された証拠（文またはその要約）に基づき、LLM に「Fully Supported（完全支持）」「Not Fully Supported（完全非支持）」「Inconclusive（結論出せず）」のいずれかの判定をさせます。
- 入力サイズ制限を超えないよう、証拠を適切に圧縮・選択します。
候補ノードの選択と再帰的検証:
- Fully Supported/Inconclusive の場合: 証拠が選択されたノードのソースノードを次の検証対象とします。
- Not Fully Supported の場合: 誤検知（False Positive）を防ぐため、証拠が得られなかったノードも含め、すべての検証済みノードのソースノードを次の対象とします。
- 終了条件:
  - ルートノード（ソース）まで到達し、証拠が選択された場合。
  - 候補ノードがなくなった場合。
  - 連続して「Not Fully Supported」の判定が $q$ 回（ハイパーパラメータ）続いた場合（早期終了）。

2.3 追跡可能性の出力

各クレームに対して以下の情報を提供します。

最終判定と理由: 最終的な忠実性の判定。
中間判定: 各検証ステップでの判定履歴。
証拠の道筋（Evidence Trail）: どのノードのどの文が証拠として選ばれたかのパス。
- 由来（Provenance）: 支持される場合、ソースから最終出力までの経路を可視化。
- エラー局所化（Error Localization）: 支持されない場合、ハルシネーションが最も可能性が高い「ステージ（段階）」を特定します。

3. 主要な貢献

概念的枠組みの提案: 忠実性評価のための生成プロセスの統一的な表現（DAG）を定義。
VeriTrail の開発: 閉域ハルシネーション検出において、MGS と SGS の両方で追跡可能性を提供する初の手法。コスト効率が高く、ベースライン手法を上回る性能を示す。
新規データセットの構築:
- FABLES+: 階層的要約プロセス（書籍要約）のすべての中間出力と、最終出力の人間による忠実性アノテーションを含むデータセット。
- DiverseSumm+: GraphRAG プロセス（ニュース記事の多様な情報統合）のすべての中間出力と、人間によるアノテーションを含むデータセット。
- これらのデータセットは、MGS プロセスの中間出力を含む初の公開データセットです。

4. 実験結果

データセットとベースライン

データセット: FABLES+（22 冊の書籍、平均 11.8 万トークン）と DiverseSumm+（1,479 記事、合計 119 万トークン）。
ベースライン手法:
- 自然言語推論（NLI）: INFUSE, AlignScore, Llama-3.1-Bespoke-MiniCheck-7B。
- RAG（検索拡張生成）ベースの検証。
- 長文コンテキスト LLM による直接検証（Gemini 1.5 Pro, GPT-4.1 Mini）。

性能評価

ハード予測（二値分類）: VeriTrail は両データセットにおいて、すべてのベースライン手法（NLI, RAG, 直接検証）を Macro F1 スコアとバランスド精度で上回りました。
- 例：FABLES+ において VeriTrail (q=1) は Macro F1 74.0% を達成し、次点の RAG (69.6%) を上回りました。
- DiverseSumm+ においても VeriTrail (q=1) が 76.6% で最高スコアを記録しました。
コスト効率: 検証対象ノード数が多いため計算コストは高いですが、早期終了メカニズムにより、人間のアノテーションコストよりも低く抑えられ、かつ高い精度を維持しています。
アブレーション研究:
- 「中間出力を通じた追跡」と「LLM による証拠選択」の両方が性能向上に寄与していることが確認されました。
- 入力サイズ制限（文数）の調整により、文脈の保持と再帰のバランスを最適化できることが示されました。

エラーステージ分析

FABLES+（階層的要約）: ハルシネーションは主に中間ステージ（Stage 3）で発生しやすい傾向がありました。
DiverseSumm+（GraphRAG）: 最終出力に近いステージ（Stage 4: コミュニティレポート）でエラーが多く発生していました。
異なる設定（q の値やモデル）でも、エラーが発生しやすいステージの分布は高い一致性を示しました。

5. 意義と結論

VeriTrail は、LLM の出力がソース資料からどのように導き出されたかを透明化し、単に「嘘をついているか」だけでなく「どこで、どのように嘘がつかれたか」を特定する画期的なアプローチです。

実用性: 医療、法務、ビジネスレポートなど、信頼性が求められる分野において、生成 AI の出力を検証し、ユーザーの信頼を高めるために不可欠です。
研究への貢献: MGS プロセスのハルシネーション検出と追跡可能性を評価するための標準的なデータセット（FABLES+, DiverseSumm+）を提供し、今後の研究の基盤となりました。
将来展望: 本手法はモデルに依存せず、検証ステップをモジュール化できるため、将来のより高度な検証器との統合も可能です。

この研究は、生成 AI のブラックボックス化を打破し、より信頼性の高い AI システムの実現に向けた重要な一歩です。

VeriTrail: Closed-Domain Hallucination Detection with Traceability