The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 助手が長いタスクをこなそうとして、なぜ途中でつまずいてしまうのか？」**という謎を解明しようとした研究報告です。

タイトルにある「ミラージュ（蜃気楼）」という言葉は、**「AI は短いタスクなら完璧に見えるけど、長いタスクになると実は幻のように脆い（壊れやすい）」**という皮肉を込めています。

以下に、専門用語を排し、身近な例え話を使ってわかりやすく解説します。

1. 問題の核心：「短い道」は得意でも「長い旅」は苦手

最新の AI（大規模言語モデル）は、**「1 歩〜2 歩の簡単な指示」**なら非常に優秀です。

例：「冷蔵庫の卵を 2 個取ってきて」→ 完璧にできます。

しかし、**「10 歩〜20 歩の複雑な指示」**になると、AI は突然バタバタと失敗し始めます。

例：「冷蔵庫から卵を 2 個取り、卵を割ってボウルに入れ、フライパンで炒め、塩を振って、最後に食器棚から皿を出して盛り付けて」
- AI は「卵を割る」まではできるのに、その後に「塩を振る」のを忘れたり、「フライパンが熱くないのに卵を入れて焦がしたり」します。

この論文は、**「なぜ AI は長い旅になると、道に迷ったり、目的地を忘れたりするのか？」**を徹底的に分析しました。

2. 研究の手法：「HORIZON（ホライズン）」という実験装置

研究者たちは、AI の失敗を分析するための新しい実験道具「HORIZON」を作りました。
これは、「タスクの難易度（長さ）」を細かく調整できる実験室のようなものです。

どんな実験？
- Web サイトの操作、パソコンのファイル整理、ロボットアームの操作、データベースの検索など、4 つの異なる分野で実験を行いました。
- タスクを「3 段階」「5 段階」「10 段階」と、段階的に長くしていき、AI がどこでつまずくかを記録しました。
- 合計 3,100 回以上の AI の行動（軌跡）を分析しました。

3. 発見：AI が失敗する「7 つの理由」

AI が長いタスクで失敗する原因は、単に「頭が悪い」からではなく、**7 つの特定の「失敗パターン」**に分類できることがわかりました。これらを「7 つの悪魔」と呼んでみましょう。

環境のトリック（Environment Error）
- 例え： 道案内アプリが「信号が青」と言っているのに、実際は赤だった。
- 解説： AI が「画面が変わった」「エラーが出た」ことに気づけず、古い情報で動き続けてしまう。
指示の聞き間違い（Instruction Error）
- 例え： 「赤い服だけ」と言われたのに、「青い服」も買ってくる。
- 解説： 指示の細かい条件（「〜だけ」「〜以外」）を無視してしまう。
記憶の消失（Catastrophic Forgetting）
- 例え： 旅行の計画で「予算 2 万円以内」と言われたのに、後半になって「高級ホテル」を予約してしまう。
- 解説： タスクの最初に言われた重要なルールを、長い会話の中で忘れてしまう。
思い込み（False Assumption）
- 例え： 「冷蔵庫に卵があるはずだ」と勝手に思い込んで、実際は空っぽなのに「卵を取り出した」と嘘をつく。
- 解説： 事実を確認せず、AI 自身の「勘違い」で行動してしまう。
計画のミス（Planning Error）
- 例え： 料理をする前に「お皿を用意する」のを忘れて、炒めた後に「お皿がない！」とパニックになる。
- 解説： 手順の順序を間違えたり、必要な準備を忘れたりする。
過去の失敗の蓄積（History Error Accumulation）
- 例え： 最初の「塩を少し」が「大さじ 1」になってしまい、その間違いを修正せず、次の工程も「大さじ 1」で続けて、料理が塩辛くなる。
- 解説： 小さな間違いを修正せず、それが積み重なって取り返しのつかない失敗になる。
記憶容量の限界（Memory Limitation）
- 例え： 長い会議のメモを取ろうとしたが、後半になると最初のメモが頭から消えてしまう。
- 解説： 会話の履歴が長くなりすぎて、AI の「頭（メモリ）」に入りきらず、重要な情報が消えてしまう。

4. 重要な結論：「頭を大きくする」だけでは解決しない

多くの人は「AI をもっと賢く（大きく）すれば、長いタスクもできるようになる」と考えがちです。しかし、この研究は**「それは違う」**と言っています。

発見： 失敗の多くは、AI の「知能不足」ではなく、「計画の立て方」や「記憶の管理方法」の欠陥でした。
比喩： いくら「記憶力抜群の天才」を雇っても、「メモの取り方が下手」で「計画表がない」状態なら、長いプロジェクトは失敗します。
解決策： AI の性能を上げるだけでなく、**「計画を立てる仕組み」や「重要なルールを忘れないメモ帳」**といった、AI の「作業のやり方（仕組み）」自体を変える必要があります。

5. まとめ：AI 開発への示唆

この論文は、AI 開発者に以下のメッセージを送っています。

「AI が長いタスクで失敗するのは、単なる『バグ』ではなく、**『仕組みの限界』です。
失敗の理由（7 つのパターン）を正確に診断し、『計画力』や『記憶の管理』**を強化する新しい仕組みを作るべきです。
単に AI を大きくするだけでは、この『長い旅のミラージュ』は消えません。」

つまり、AI を「より賢くする」ことよりも、**「より賢く『働く』仕組みを作る」**ことが、信頼できる AI 助手を作るための鍵だということです。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義 (Problem)

LLM エージェントは、単一のステップや短いタスクでは成功しますが、数十から数百のステップにわたる「長視野」タスクでは、性能が急激に低下し、システム的な失敗に至ります。

現状の課題: 既存のベンチマークはドメイン固有であり、「視野（Horizon）」の定義が不統一です。また、評価が「最終的な成功率」に偏っており、失敗がどこで（どの段階で）、なぜ（どのようなメカニズムで）発生するかについての体系的な分析が欠如しています。
核心的な問い:
- (RQ1) タスクの視野が広がるにつれて、エージェントはどこで破綻するか？
- (RQ2) なぜこれらの失敗が発生するのか？

2. 手法と提案 (Methodology)

著者らは、このギャップを埋めるためにHORIZON（Holistic Observations for Reasoning and faIlure analyZis in lOng-horizoN agents）という新しい診断ベンチマークと分析フレームワークを提案しました。

A. HORIZON ベンチマーク

タスク視野の定義: タスクの複雑さをエージェントに依存しない指標で定義します。
- 本質的視野 ( $H^*$ ): 最適な方策がタスク完了に必要とする最小の行動数。
- 構成深度 ( $s$ ): ネストされたサブゴールや条件分岐の深さ。
制御された視野拡張: 既存のタスクを体系的に拡張し、視野を制御しながら増加させます。
- 深度拡張 (Depth Extension): 既存の行動間に中間ステップを挿入し、構成深度 $s$ を増やす（OS やデータベース向け）。
- 幅拡張 (Breadth Extension): 複数の独立したタスクを単一のワークフローに結合し、並列な目標維持を要求する（Web や物理エージェント向け）。

B. 7 分類の失敗アトリビューション・タキソノミー

失敗を単に「成功/失敗」ではなく、7 つの直交するカテゴリに分類する体系を構築しました（FMEA: 故障モード影響解析に基づき設計）。

Environment (環境): 環境の変化やエージェントの検知失敗。
Instruction (指示): 指示の曖昧さや部分的な理解。
Planning Error (計画誤り): サブプランの誤りや行動順序のミス。
History Error Accumulation (履歴誤りの蓄積): 初期の小さな誤りが後続のステップで増幅されること。
Catastrophic Forgetting (壊滅的忘却): 文脈内に存在するはずの制約や指示を後続の推論で見失うこと。
False Assumption (誤った仮定): 環境状態や事実を誤って推測すること。
Memory Limitation (メモリ制限): 文脈ウィンドウの限界により、必要な情報が失われること。

C. 評価パイプライン

データ収集: 4 つのドメイン（Web, OS, 物理的 (Embodied), データベース）において、SOTA モデル（GPT-5 変種、Claude-4）を用いて 3,100 以上の軌跡（trajectories）を収集。
LLM-as-a-Judge: 膨大な失敗軌跡を人間が手動でラベル付けする代わりに、上記のタキソノミーに基づいて訓練された LLM を「裁判官（Judge）」として用いるスケーラブルな失敗帰属パイプラインを提案。
検証: 人間のアノテーターとの一致度を測定（人間間 $\kappa=0.61$ 、人間対 LLM 裁判官 $\kappa=0.84$ ）し、信頼性を確認。

3. 主要な結果 (Key Results)

非線形な性能低下: 視野（ $s$ ）が増加すると、成功率は直線的に低下するのではなく、ある閾値を超えると急激に崩壊（breaking point）します。
ドメイン依存性:
- Web: 非常に小さな視野拡張で性能が崩壊。
- OS/データベース: 中程度の視野までは比較的堅牢だが、その後急激に低下。
- 物理的 (Embodied): 最小の視野増加でも急激に劣化。
失敗構造の変化: 視野が長くなるにつれて、失敗の構成が変化します。
- 短視野では環境や指示のミスが目立つが、長視野では「計画誤り（Planning Error）」と「メモリ関連の失敗（Catastrophic Forgetting, Memory Limitation）」が支配的になります。
- 特に、早期のサブプランの誤りが後続の行動に伝播し、解決不能な軌道逸脱を引き起こすことが多く見られました。
モデル間の差の縮小: 長視野の失敗領域に入ると、GPT-5 と Claude-4 のような高性能モデル間の性能差は縮小し、いずれも低い成功率に収束します。これは、ベースモデルの能力向上だけでは長視野タスクの根本的な課題を解決できないことを示唆しています。

4. 主要な貢献 (Contributions)

HORIZON ベンチマークの提案: ドメイン横断的に長視野タスクを体系的に構築・分析するための最初の診断ベンチマーク。
大規模実証研究: 4 つのドメイン、複数の SOTA モデル、3,100 以上の軌跡を用いた実証研究により、視野に依存する一貫した劣化パターンを明らかにした。
スケーラブルな失敗帰属パイプライン: 人間のアノテーションを補完・代替する、信頼性の高い LLM-as-a-Judge パイプラインの開発と検証。
実用的な示唆: 長視野エージェントの信頼性向上には、単なるモデルのスケールアップではなく、「計画（Planning）」、「メモリ（Memory）」、「実行時の制御（Execution-time control）」における手法レベルの改善が必要であることを示した。

5. 意義と結論 (Significance)

この論文は、長視野タスクにおけるエージェントの失敗を「単なる成功率の低下」ではなく、「失敗構成の構造的なシフト」として捉える視点を提供しました。

研究の転換点: 既存の「最終結果」中心の評価から、「失敗がどこで、なぜ発生するか」を診断するプロセス中心の評価へとパラダイムシフトを促しています。
将来の方向性: 単にモデルを大きくするのではなく、階層的なサブプランニング、実行時の計画検証・修復、長距離制約を保持するメモリ機構など、アーキテクチャと手法の設計に焦点を当てるべきであることを提言しています。
オープンソース: 研究の再現性とコミュニティへの貢献を目的として、HORIZON リーダーボードとプロジェクトサイトを公開しています。

総じて、この研究は信頼性の高い長視野エージェントを構築するための体系的な診断ツールと指針を提供し、AI エージェント研究の次の段階を切り開く重要な一歩となっています。