Each language version is independently generated for its own context, not a direct translation.

この論文は、**「Pneuma-Seeker（プネウマ・シーカー）」**という新しいシステムについて書かれています。

一言で言うと、**「AI に『データで何か知りたいんだ』と言っても、AI は何を言っているのかよくわからず、適当な答えを返してしまう問題を解決する仕組み」**です。

これを、**「料理の注文」**という日常の例えを使って説明しますね。

🍽️ 従来の問題点：「曖昧な注文」の悲劇

想像してください。あなたがレストランで、**「美味しい料理が食べたい」**とだけ注文したとします。

従来の AI（LLM）の反応：
「はい、わかりました！『美味しい料理』ですね！」と、勝手に**「ピザ」**を出してきます。
でも、実はあなたが欲しかったのは「和食の刺身」だったかもしれません。あるいは「ピザ」は焼けていなかったり、具材が間違っていたりします。
- なぜ？ 「美味しい料理」という言葉だけでは、具体的に何を作ればいいかわからないからです。AI は「推測」で答えを出そうとして、**「ハルシネーション（嘘や勘違い）」**を起こしてしまいます。

💡 Pneuma-Seeker の解決策：「レシピの共同作成」

Pneuma-Seeker は、いきなり「料理（答え）」を出そうとしません。代わりに、**「料理のレシピ（データモデル）」**をあなたと共同で作ることに集中します。

レシピの提案（関係性の具体化）：
AI は「では、まず『刺身』という料理のレシピを作ってみましょうか？必要な材料は『マグロ』と『大根』、切り方は『薄切り』ですね」と提案します。
- ここでは、**「料理（答え）」そのものではなく、「料理を作るための設計図（テーブルや列の定義）」**を提示します。
共同での修正（対話）：
あなたは「待って、マグロじゃなくて『サーモン』がいいな。あと『大根』は不要で『わさび』を足して」と言います。
AI は「わかりました。レシピを『サーモンとわさびの刺身』に修正します」と、設計図を書き換えます。
- これを繰り返すことで、あなたの「漠然とした欲求」が「具体的なレシピ」に変わっていきます。
材料の調達と調理（データの発見と準備）：
レシピが完成したら、AI は冷蔵庫（データベース）から「サーモン」と「わさび」を探し出し、正しい量で切り分けます。
- もし「サーモン」が見つからなければ、「冷蔵庫にありません」と正直に報告し、レシピを修正します。
完成と確認（答えの提示）：
finally、完成した料理（答え）を渡します。
- ここが重要： 「なぜこの料理になったのか？」という**「レシピの履歴（どの材料をどこから取ったか）」**も一緒に渡します。だから、あなたは「あ、なるほど、サーモンを使ったからこうなったんだ」と納得できます。

🌟 このシステムがすごい 3 つのポイント

「答え」より「設計図」を重視する
従来の AI は「答え」を急ぐので、間違えても気づきません。Pneuma-Seeker は「設計図（レシピ）」を先に作るので、「ここが間違っている！」と人間が途中で指摘しやすく、最終的な答えの精度が格段に上がります。
AI は「探偵」ではなく「アシスタント」
AI は勝手に推理して答えを出そうとせず、**「設計図を確認して、必要なデータを探しに来るアシスタント」**として働きます。これにより、AI が勝手に嘘をつく（ハルシネーション）のを防ぎます。
大きなデータ室でも動ける
会社のデータは山ほどあります（数百万行の表など）。AI の記憶力（コンテキスト）には限界がありますが、このシステムは**「必要な部分だけを取り出して、データベースで処理する」**という賢い方法を使っているため、巨大なデータでも正確に動きます。

🏁 まとめ

この論文は、**「AI に『知りたいこと』を伝えるとき、いきなり答えを求めず、まずは『何を作るかの設計図』を一緒に作ろう」**という新しい考え方を提案しています。

人間： 「美味しい料理が食べたい（曖昧な要望）」
AI： 「では、まずレシピを一緒に考えましょうか？（設計図の共同作成）」
結果： 納得できる美味しい料理（正確なデータ分析）が完成し、その過程もすべて見られるようになります。

これにより、ビジネスや研究で「データを使って何かしたい」という人が、AI をより信頼して、効率的に使えるようになるのです。

Each language version is independently generated for its own context, not a direct translation.

Pneuma-Seeker: 自律型データ発見と準備のための情報ニーズの关系的実体化に関する技術的概要

本論文は、データ分析や意思決定において、ユーザーが自身の「情報ニーズ（何を知りたいか）」を正確に言語化できないという課題に直面している現状を指摘し、その解決策としてPneuma-Seekerというシステムを提案しています。このシステムの中核となるアイデアは、**「关系的実体化（Relational Reification）」**です。

以下に、問題定義、手法、主要な貢献、評価結果、および意義について詳細にまとめます。

1. 問題定義と背景

背景

組織内では、意思決定者がデータに基づいた質問を行い、関連するデータセットを発見・準備するワークフローが一般的です。しかし、このプロセスには以下の「頑固な」ボトルネックが存在します。

データ発見: 情報ニーズを満たすドキュメント（テーブル）を特定・取得すること。
データ準備: そのドキュメントを分析可能な形式に変換すること。

課題

曖昧な情報ニーズ: ユーザーは初期段階では意図を明確に言語化できず、ニーズは反復的な対話を通じて徐々に具体化されます（「潜在的な情報ニーズ $I^*$ 」から「能動的な情報ニーズ $I^+$ 」への収束）。
LLM の限界: 大規模言語モデル（LLM）は自然言語を理解できますが、意図が曖昧な場合、欠落したフィールドの幻覚（Hallucination）、結合パスの誤った仮定、根拠のない回答生成など、脆い（brittle）振る舞いを示します。
既存ツールの限界: 従来のデータカタログや BI ツールは、ユーザーが自らテーブルを特定し、クエリを構築する負担を強いるため、自動化には至っていません。

核心となる問題: ユーザーの曖昧な意図を、システムが信頼性を持って実行可能な具体的なデータモデルに変換し、かつその過程を検証可能にするメカニズムが必要である。

2. 提案手法：Pneuma-Seeker

Pneuma-Seeker は、ユーザーの問いを直接回答するのではなく、**「关系的実体化（Relational Reification）」**というアプローチをとります。

2.1 关系的実体化 (Relational Reification)

システムは、ユーザーの曖昧な情報ニーズ $I^+$ を、分析準備が整った**「関係スキーマ（Target Relation）」**として表現します。

$(T, S)$ のペア:
- $T$ : 必要な属性、型、意味論を含むターゲット関係（テーブル）の集合。
- $S$ : $T$ を実行可能に変換するスクリプト（SQL や Python コード）。
相互作用の変化:
- ユーザーは「答え」ではなく、提案されたスキーマ $T$ に対してフィードバックを与え（例：「'hazardous' は広すぎる、'radioactive' に変更」）、意図を具体化します。
- システムは、この明確化されたスキーマに基づいて、ソースの発見、結合、変換を行います。
利点:
- 解釈可能性: システムの解釈（どの列をどう使うか）が明示的になるため、ユーザーは論理ミスを発見・修正できます。
- 検証可能性: 最終的なデータ生成プロセスが DAG（有向非巡回グラフ）として記録され、プロベナンス（出所）を追跡可能になります。

2.2 システムアーキテクチャ

Pneuma-Seeker は、LLM を活用した自律型（Agentic）アーキテクチャを採用し、以下のコンポーネントで構成されます。

Conductor (指揮者):
- ワークフローのオーケストレーションを担当。
- ユーザーのフィードバックに基づき、 $(T, S)$ の定義、修正、実行を計画します。
- 動的な計画ループ（Situational Analysis）を行い、必要に応じて検索や実行を繰り返します。
Materializer (具現化器):
- 指定されたスキーマ $T$ に基づき、テーブルを生成・結合します。
- 自由なコード生成ではなく、構造化された演算子（結合、ユニオン、セマンティック結合など）を優先し、エラーを低減します。
Retriever (検索器):
- 大規模な異種データコーパスから関連テーブルを特定します。
- Pneuma-Retriever（スキーマ検索）に加え、コンテンツ検索（セルレベルの一致）や正規表現によるテーブル名列挙をサポートし、見落としを防ぎます。
DBService & LMService:
- 永続化ストレージと LLM/埋め込みモデルへのアクセスを提供。

2.3 コンテキスト管理戦略

大規模なデータと LLM のコンテキストウィンドウ制限を克服するため、2 段階の管理戦略を採用しています。

マクロレベル管理:
- ワークフローを「検索」「具現化」「オーケストレーション」に分解し、各コンポーネントの処理対象を限定します。
マイクロレベル管理 (Context Extraction):
- 重要な革新: LLM がテーブルの内容を完全に読み取れない場合、LLM は「不確実性」を外部化し、DBService を介して実行可能な Python スクリプトを呼び出します。
- 例：特定の値が存在するか、分布はどうなっているか、といった具体的な証拠を「プローブ（探査）」として取得し、その結果に基づいて $(T, S)$ を構築します。これにより、サンプリングの欠陥や誤った仮定を防ぎます。

3. 主要な貢献

情報発見・準備のための実体化された意図:
- ユーザーの曖昧な意図を「关系的スキーマ」という具体的なアーティファクトとして表現・反復改善する枠組みを定式化しました。
高度なコンテキスト管理技術:
- マクロレベルのタスク分解に加え、LLM が大規模な関係データと対話するためのマイクロレベル管理戦略（実行可能なプローブによる証拠の取得）を提案しました。
Pneuma-Seeker システムの実装:
- 关系的実体化に基づき、ソース発見、テーブル具現化、実行可能プログラムの生成、およびその検証性をサポートする自律型システムを構築しました。
評価と実運用からの知見:
- 学術的・産業的なベンチマークでの評価と、シカゴ大学での実組織への導入を通じて、信頼性、説明可能性、反復コストの重要性を実証しました。

4. 評価結果

KramaBench（6 つの異なるドメインのデータセット）を用いた定量的評価と、実運用での定性的評価が行われました。

4.1 回答の品質 (Answer Quality)

他システムとの比較: 最先端のベースライン（DS-Guru, smolagents）と比較して、Pneuma-Seeker は全体的に高い回答精度を達成しました（例：Biomedical データセットで 94.44%）。
コンテキスト抽出の重要性: 「Context Extraction（マイクロ管理）」を無効化すると精度が大幅に低下しました。これは、LLM がテーブルの実際の分布を確認せずに仮定で推論してしまうことを防ぐためです。
关系的実体化の価値: $(T, S)$ を経由しない直接生成と比較しても、 $(T, S)$ を通じたアプローチの方が精度が高く、特に複数テーブルの統合が必要なタスクで優位でした。

4.2 コストとスケーラビリティ

メモリ使用量: DS-Guru は全データをメモリに読み込むためメモリ消費が膨大ですが、Pneuma-Seeker はデータベース駆動の実行により、極めて低いメモリ使用量（16GB 環境でも余裕）を維持しました。
実行時間: 追加の構造化処理により、単純な生成モデルより実行時間は若干長くなりますが、LLM 推論時間が支配的であり、データ処理のオーバーヘッドは最小限に抑えられています。
Pareto 最適性: 精度とコストのトレードオフにおいて、Pneuma-Seeker はパレートフロンティア（最善の組み合わせ）の多くを占めています。

4.3 実運用での知見

実組織での導入により、**「説明可能性（Inspectability）」と「検証可能性（Trust）」**が LLM 駆動のデータシステムにおいて不可欠であることが確認されました。
ユーザーは、最終的な答えだけでなく、システムがどのようにデータを選び、変換したか（スキーマと DAG）を確認することで、結果への信頼を築くことができました。

5. 意義と結論

Pneuma-Seeker は、LLM が単に「質問に答える」のではなく、**「データ分析の意図を具体化し、実行可能なデータモデルを共同で構築する」**という新しいパラダイムを示しました。

信頼性の向上: 幻覚や誤った仮定を防ぎ、ユーザーがシステムのプロセスを検証・修正できる仕組みを提供します。
実用性: 大規模で多様な企業データ環境において、スケーラブルかつ効率的に動作します。
将来展望: 关系的実体化は、LLM を介したデータ発見・準備の分野における、信頼性の高い基盤となる可能性を秘めています。

本論文は、LLM の能力を最大限に引き出すためには、単なるプロンプトエンジニアリングではなく、**「意図の具体化」と「構造化された対話」**が重要であることを実証的に示した点で意義深いです。

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data