原著者： Clint Ehrlich, Theodore Blackman

公開日 2026-05-07

📖 1 分で読めます☕ さくっと読める

原著者： Clint Ehrlich, Theodore Blackman

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

あなたが何日にもわたる巨大な謎を解こうとしていると想像してください。あなたは天才的な探偵（AI）を持っていますが、その探偵は非常に短期記憶しか持っていません。1,000 個のヒントの山を与えれば、最後のものに取り組む頃には最初の数個を忘れてしまいます。

長らく、その解決策は探偵により大きなノート（より大きな「コンテキストウィンドウ」）を与えることでした。しかし最終的には、どんなに大きなノートでも持ち運ぶには重くなりすぎ、探偵は紙の量そのものに混乱し始めます。

この論文は、探偵を助ける新しい方法を紹介します：**ロスレス・コンテキスト管理（LCM）**です。これは、探偵に自分自身でファイル管理システムを作成させるのではなく、彼らのためにメモを管理する超知的な自動化された司書を与えるようなものです。

以下に、簡単な比喩を用いてその仕組みを説明します。

1. 問題：「GOTO」対「構造化」の議論

この論文は、メモリを処理する 2 つの方法を比較しています。

旧来の方法（RLM）： 探偵にコードで自分自身のファイル管理システムを作成させることを想像してください。探偵は、メモをどのように整理し、いつ捨て、後でどのように見つけるかを決定しなければなりません。これは、プログラマーにコード内の任意の場所にジャンプする GOTO 文を無制限に使えるようにするのと同じです。強力ですが、探偵がファイル管理スクリプトでミスをした場合、システム全体がクラッシュしたり、ぐちゃぐちゃになったりします。
新しい方法（LCM）： 探偵にファイル管理システムを作成させるのではなく、エンジン（探偵を実行するコンピュータ）が事前に構築された完璧なファイルキャビネットを提供します。探偵は「ここに新しいヒントがあります」と言うだけで、エンジンが自動的に古いヒントをいつ要約し、どこに保存するかを決定します。これは、構造化プログラミング（ループや if 文）を使用するのと同じです。柔軟性は低いですが、誤ったロジックによるクラッシュは決して起こりません。

2. LCM の 2 つの魔法のツール

この論文によると、LCM は探偵の集中力を維持するために 2 つの主なトリックを使用します。

A. 「ロスレス」ファイルキャビネット（階層的 DAG）

仕組み： エンジンは、すべてのメモ、単語を一字一句漏らさず「マスターコピー」として、安全な金庫（不変ストア）に保持します。
要約： 探偵の作業スペースの容量を節約するため、エンジンが古いメモの「要約カード」を作成します。その要約カードを作業スペースに置き、完全なメモを金庫に隠します。
魔法： 探偵が後で元のメモを見る必要がある場合、それをリクエストすると、エンジンが即座に要約カードを完全なメモと入れ替えます。何も本当に失われることはありません。必要になるまで圧縮されているだけです。
比喩： 500 ページの本を読むと想像してください。本全体を持ち運ぶ代わりに、各章の 1 文の要約が書かれた栞を持ち歩きます。詳細を確認する必要がある場合は、本を戻して特定のページをめくります。元のテキストを失うことはありません。

B. 「並列」チーム（LLM-Map）

問題： 探偵が 1,000 個のファイルを 1 つずつ読まなければならない場合、最後のファイルに到達する頃には疲れ果て、最初のファイルを忘れてしまいます。
解決策： 探偵が自分でファイルを読むのではなく、エンジンが 16 人のアシスタントを雇うボスのように機能します。探偵はボスに単一の指示を与えます。「これらの 1,000 個のファイルを読み、それぞれの要点を教えてください」。エンジンが 1,000 個のファイルをすべてアシスタントに同時に送ります。
結果： アシスタントが並列で重労働を行います。探偵が見るのは、最終的に整理された結果のリストだけです。探偵は一度に 1,000 個のファイルを頭の中に保持する必要はありません。

3. 「ゼロコスト」の約束

この論文の最大の主張の一つは、このシステムが小さなタスクでは速度を落とさないという点です。

比喩： ファイル化するメモが 5 枚しかない場合、エンジンは複雑なファイル管理システムを作成する手間を省きます。探偵が直接それらを読むようにします。「ファイルキャビネット」は、山が大きくなりすぎた場合にのみ機能します。つまり、通常の短い会話では、システムは標準的な AI と同じくらい速く感じられます。

4. 結果：競合との比較

著者らは、彼らのシステム（Volt と呼ばれる）を、現在世界で最も優れた AI コーディングアシスタントの 1 つであるClaude Code と比較してテストしました。

テスト： 両方のシステムに、最大 100 万語のヒント（トークン）を含む巨大な「謎」を与えました。
結果：
- 小さなヒント（32,000 語未満）の場合、両方のシステムはほぼ同じパフォーマンスを発揮しました。
- 巨大なヒント（32,000 語から 100 万語）の場合、Volt が毎回勝利しました。
- 論文は、Volt が大量のデータセットで正しい答えを見つける能力が著しく優れていたと主張しています。それはテキストの量に「混乱」しなかったためであり、一方 Claude Code はテキストが長くなるにつれて苦しみ始めました。

5. これが重要な理由（論文によると）

この論文は、AI に自身のメモリを管理させること（「旧来の方法」のように）は、AI が自身のコードでミスを犯す可能性があるためリスクがあると論じています。メモリ管理をコンピュータエンジン（「新しい方法」）に移すことで、システムは以下のようになります。

より信頼性が高い： AI が悪いスクリプトを書いたためにクラッシュしません。
より効率的： AI が圧倒されることなく、膨大な量のデータを処理します。
ロスレス： 情報が本当に削除されることはなく、要約されるだけであることが保証されます。

要約すると、この論文は、非常に長く複雑なタスクにおいては、AI にメモリを処理させるために、AI 自身が司書になるのではなく、構造化された自動化されたアシスタントを与える方がよいと提案しています。

Each language version is independently generated for its own context, not a direct translation.

技術的概要：ロスレス・コンテキスト管理（LCM）

問題定義

複雑で長期的なエージェントタスクにおける主要なボトルネックは、依然として大規模言語モデル（LLM）の有効なコンテキストウィンドウである。100 万トークンを超える名目上のウィンドウを持つモデルでさえ、ツール呼び出し、ファイル内容、中間推論の量が容量を超えてしまう、数日にわたるセッションでは苦労している。さらに、ハードなトークン制限に達する前にパフォーマンスが著しく低下する「コンテキストの劣化（context rot）」という現象がこれを悪化させている。

以前の研究、特に再帰的言語モデル（RLM）は、モデルが自身のプロンプトをチャンク化して処理するためのスクリプトを記述するなど、記号的再帰を通じて自らのコンテキストを能動的に管理すべきであると提案した。RLM は能動的なコンテキスト管理の実現可能性を示したが、モデルの確率的性質を引き継いでいる。つまり、あるロールアウトで機能するメモリ戦略が、次のロールアウトでは失敗する可能性がある。さらに、すべての相互作用を再帰的スケフォールドでラップすることは、標準的なウィンドウ内に収まるタスクに対して遅延とコスト（「短コンテキスト・ペナルティ」）をもたらす。モデル生成の制御フローの表現力と、生産システムに必要な信頼性との間に緊張関係が存在する。

手法：ロスレス・コンテキスト管理（LCM）

LCM は、RLM のモデル中心アプローチに対する、決定論的かつアーキテクチャ中心の代替案を提案する。モデルにメモリ戦略を考案させるのではなく、LCM はメモリアーキテクチャの負担をエンジンに移し、決定論的でデータベースに裏打ちされたインフラを提供する。このシステムは、再帰的コンテキスト圧縮と再帰的タスク分割という 2 つの柱の上に構築されている。

1. 二重状態メモリアーキテクチャ

LCM は、二重状態設計を通じてロスレスな検索可能性を確保する。

不変ストア（Immutable Store）: すべてのユーザーメッセージ、アシスタント応答、ツール結果をそのまま（verbatim）保存し、決して変更しない永続的なトランザクションストア（例：PostgreSQL）である。これが真実の源泉（ソース・オブ・トゥルース）である。
アクティブ・コンテキスト: 各ターンで LLM に送信されるウィンドウであり、最近の生メッセージと事前計算された要約ノードから構成される。

要約ノードは、LLM による要約を通じて古いメッセージから導出されたマテリアライズド・ビューとして機能する。重要なのは、システムが元のデータへの「ロスレスなポインタ」を保持することである。要約が不十分な場合、lcm_expand ツールを使用すると、エージェントは元のコンテンツをそのまま取得できる。コンテキストの洪水を防ぐため、lcm_expand はサブタスクに制限され、メインの相互作用ループは要約のみを観察する。

2. 階層的 DAG と制御ループ

コアとなるデータ構造は、要約の方向非巡回グラフ（DAG）である。アクティブ・コンテキストが埋まると、古いメッセージは要約ノードに圧縮され、元データは保持される。

決定論的制御ループ: エンジンは、ソフト（ $\tau_{soft}$ ）およびハード（ $\tau_{hard}$ ）のトークン閾値を使用して圧縮を管理する。
ゼロコストの継続性: $\tau_{soft}$ 未満では、要約は行われず、システムはオーバーヘッドなしでパッシブなロガーとして機能する。閾値を超えた場合、非同期で圧縮がトリガーされ、LLM のターン間で要約がコンテキストに差し替えられる。
3 段階のエスカレーション: 収束を保証し、「圧縮失敗」（要約が入力よりも長くなる現象）を防ぐため、LCM は厳格なエスカレーションプロトコルを採用する。
1. 通常: 詳細を保持した LLM による要約。
2. 積極的: 箇条書きによる LLM による要約で、トークン目標を削減。
3. 決定論的フォールバック: 固定トークン制限（例：512 トークン）への非 LLM による切り捨て。

3. 大規模ファイルの処理

コンテキスト制限を超えるファイル（大規模なログやデータセットなど）の場合、LCM は完全なコンテンツをロードしない。代わりに、参照（パス、ID）と事前計算された**探索要約（Exploration Summary）**を保存する。この要約は、タイプ認識ディスパッチャー（構造化データのためのスキーマ抽出、コードのための構造的解析、テキストのための LLM 要約）によって生成され、モデルがファイルをロードすることなくファイルについて推論することを可能にする。ファイル ID は要約 DAG を通じて伝播され、モデルは複数の圧縮ラウンドを経ても遭遇したファイルの認識を維持する。

4. オペレーターレベルの再帰

LCM は、モデルが記述するループを、エンジンが管理するプリミティブに置き換える。

LLM-Map: ステートレスな LLM 呼び出し（分類、抽出など）を介してアイテムのリストを並列処理する。
Agentic-Map: 各アイテムに対して完全なサブエージェントセッションを生成し、多段階推論やツール使用に適している。
保証: エンジンは反復、並行性、リトライ、スキーマ検証を処理する。出力は外部の JSONL ファイルに保存され、コンテキスト汚染を防ぐ。
スコープ縮小不変性: 無限の委任ループを防ぐため、サブエージェントは保持する作業と委任する作業を宣言しなければならない。エージェントが自身の全責任を委任しようとした場合、エンジンはその呼び出しを拒否する。この構造的保証により、任意の深さ制限なしに終了が保証される。

主要な貢献

アーキテクチャの転換: LCM は、確率的でモデル生成のプロセス（RLM）から、決定論的でエンジン管理のプロセスへとコンテキスト管理を移行させる。これは、プログラミング言語における制限のない GOTO 文から構造化された制御フローへの歴史的転換を反映している。
ロスレスな検索可能性: RAG やスライドウィンドウとは異なり、LCM はコンテキストが何回圧縮されたかに関わらず、不変ストアを通じて任意の以前の状態をそのまま復元できることを保証する。
ゼロコストの継続性: このアーキテクチャは、ネイティブなコンテキストウィンドウ内に収まる短いタスクに対して、遅延やコストのオーバーヘッドを発生させず、再帰的スケフォールドにおける主要な非効率性を解決する。
決定論的収束: 3 段階のエスカレーションプロトコルとスコープ縮小不変性は、それぞれ圧縮失敗と無限再帰に対する数学的保証を提供する。

結果

著者は、LCM（Volt エージェントとして実装）を、Claude Code（v2.1.4）および生（raw）のOpus 4.6と比較評価した。評価は、8K から 1M トークンまでのコンテキスト長をテストするOOLONGベンチマーク（特に trec_coarse スプリット）で行われた。

パフォーマンス: Volt（LCM）は平均絶対スコア74.8を達成し、Claude Code の70.3を 4.5 ポイント上回った。
コンテキスト長への感度:
- 32K トークン未満: Volt と Claude Code は同程度のパフォーマンスを示し、短い長さでは Claude Code がわずかに優位であった。
- 32K トークン超: Volt は一貫して Claude Code を上回った。超長領域ではその差が顕著に広がった。
  - 256K トークンで：Volt は 10.0 ポイントのリード。
  - 512K トークンで：Volt は 12.6 ポイントのリード。
  - 1M トークンで：Volt は 4.3 ポイントのリード。
ベースラインの劣化: スケフォールドなしの生 Opus 4.6 は、65K トークンを超えると急激に劣化し、最大長では 20 点未満に落ち込んだ。
メカニズム: パフォーマンスの優位性は、コンテキスト飽和を回避する並列集約のための LLM-Map の使用に起因する。これに対し、Claude Code はモデルにチャンキング戦略を考案させることに依存しており、コンテキストが成長するにつれて誤差のばらつきと認知的負荷が生じる。

意義と主張

本論文は、LCM が RLM によって先駆された再帰的パラダイムの正当化および拡張を表すと主張している。それは、再帰的コンテキスト操作が、従来の LLM だけでなく、ネイティブなファイルシステムアクセスを持つ最先端のコーディングエージェント（Claude Code など）をも凌駕し得ることを実証している。

著者は、LCM が生産環境にとって優れたトレードオフを提供すると論じている。

柔軟性より信頼性: モデルが記述するループの最大限の柔軟性を犠牲にすることで、LCM は終了保証、ゼロコストの継続性、そしてロスレスな状態の検索可能性を獲得する。
生産への実現性: 決定論的プリミティブにより、モデルが自らのメモリを管理するメタスキルを習得するのを待つことなく、無限コンテキスト・アーキテクチャの即時展開が可能になる。
相補性: 著者は、LCM と RLM は排他的ではないと示唆している。将来のシステムでは、一般的なケースには LCM の構造化されたオペレーターをデフォルトとし、最大限の柔軟性を必要とする例外タスクには RLM 型の記号的再帰を維持する可能性がある。

本論文は、「アーキテクチャ中心」の視点（構造化されたプリミティブを提供する）が、特にコンテキスト長が現在の生モデルウィンドウの能力を超えてスケールするにつれて、生産集約ワークロードに対して信頼性とコスト上の優位性をもたらすと結論づけている。

LCM: Lossless Context Management