Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI を学ぶ際に、どのデータが本当に役立っているのかを正しく評価する新しい方法」**について書かれたものです。

AI の学習（トレーニング）には、膨大な量のデータが使われます。しかし、その中で「役に立たないデータ」や「むしろ害になるデータ」も混じっています。もし、AI が「なぜその答えを出したのか」をデータごとに評価できれば、無駄なデータを捨てたり、偏りを直したりできるはずです。

この論文の核心は、**「AI を教える『先生（最適化アルゴリズム）』が変われば、データの価値も変わる」**という発見と、それを解決する新しいテクニックにあります。

以下に、専門用語を排して、日常の比喩を使って解説します。

1. 問題：従来の方法は「先生」を間違えていた

AI を教える際、最も一般的な方法（SGD というアルゴリズム）では、**「データの貢献度」**を計算する素晴らしい方法（シャープレー値）がすでにありました。これは「ある生徒がクラス全体の成績にどれだけ貢献したか」を公平に評価するルールのようなものです。

しかし、現代の AI 開発では、この「一般的な方法」ではなく、**「Adam（アダム）」**という、より賢く複雑な「先生」が使われています。Adam は、過去の学習履歴を覚えていて、生徒の性格に合わせて教え方を細かく調整する先生です。

【比喩：料理の味付け】

SGD（従来の方法）： 料理に塩を「一定の量」ずつ入れる方法。単純で予測しやすい。
Adam（現代の方法）： 料理の味見をしながら、過去の味付けの記録を参考に、「今日は少し甘く、明日は少し辛く」と調整する方法。

【発見】
この論文の著者たちは、ある衝撃的な事実を見つけました。
**「SGD 用につくられた評価ルールを、Adam で教えた AI にそのまま使うと、データの価値を全く間違えてしまう」**ということです。

例え話：
ある生徒が「数学のテスト」で良い成績を出したとします。
- SGD 方式の先生は、「この生徒は数学が得意だから、クラスに貢献している！」と評価します。
- しかし、Adam 方式の先生は、「この生徒は過去に失敗を繰り返していたから、今日は慎重に教える必要がある。だから、今の貢献度は低い」と評価します。
- 結果、**「同じ生徒なのに、評価が真逆」**になってしまうのです。
- 論文によると、この 2 つの評価の一致度は、11% 程度しかありません（まるでサイコロを振ったような関係性）。

つまり、現代の AI 開発で「SGD 用の評価表」を使っても、「どのデータが役立っているか」を正しく見抜くことはできないのです。

2. 解決策：Adam 専用の「新しい評価表」を作る

そこで、著者たちは**「Adam 専用のデータ評価システム（Adam-Aware In-Run Data Shapley）」**を開発しました。

① 理論的な突破：「固定された状態」で考える

Adam の計算は複雑で、過去の履歴に依存しています。これを単純化するために、著者たちは**「一瞬だけ時間を止めて、Adam の状態を固定したまま考えれば、計算式がシンプルになる」**というアイデアを思いつきました。
これにより、複雑な計算を「足し算」の形に直すことができ、データの価値を正確に計算できるようになりました。

② 技術的な工夫：「ゴースト（幽霊）の計算術」

ここで大きな壁がありました。Adam の計算には、通常「1 つのデータごとの計算」が必要で、メモリが爆発的に増えるという問題がありました。

従来の方法： 1000 人の生徒のテスト答案を、1 人ずつ個別に採点して、その結果を全部メモ帳に書き留める。（メモ帳がパンクする）
この論文の方法（Linearized Ghost Approximation）：
「幽霊（ゴースト）」のような存在を使って、**「1000 人の答案を一度に、1 回の採点作業で処理する」という魔法のようなテクニックを使いました。
具体的には、複雑な計算式を「近似（だいたい同じ）」とみなせるように変形し、「個別にメモ帳を作る必要なく、全員の結果を瞬時に合計できる」**ようにしました。

【効果】

スピード： 従来の AI 学習の95% の速さを維持したまま、データ評価を同時に行えます。
メモリ： 特別なメモリをほとんど使わずに済みます。

3. 実証：本当に役立っているか？

この新しい方法が、実際に役立つことを 2 つの実験で証明しました。

A. 「誰がヒントを与えたか」を見つける（意味の一致）

AI に「ある文章」を読ませて、その文章が「どの学習データからヒントを得たか」を当てる実験を行いました。

SGD 方式： 似た単語が含まれているデータを見つけますが、意味が似ていても言葉が違うと見つけられません。
Adam 方式（この論文）： 言葉が違っても、**「意味が似ているデータ」**を正しく特定しました。
- 例：「武器が占拠された」という文章に対し、SGD は「武器」という単語の一致を探すのに対し、Adam 方式は「軍事施設が占拠された」という意味の似ているデータを見つけました。

B. 不要なデータを捨てて AI を強くする（データ剪定）

学習データの中から「役に立たないデータ」を 10%〜30% 捨てて、AI を再学習させました。

SGD 方式で捨てた場合： AI の性能がガクンと落ちました。
Adam 方式（この論文）で捨てた場合： AI の性能は落ちず、むしろ向上しました。
- これは、「本当に役に立たない（あるいは有害な）データ」を正確に切り捨てられた証拠です。

まとめ：なぜこれが重要なのか？

この論文は、**「AI を教える方法（アルゴリズム）が変われば、データの価値も変わる」**という重要な真理を明らかにしました。

昔の常識： 「データには絶対的な価値がある」と思っていた。
新しい発見： 「データは、教える『先生（Adam）』との相性で価値が決まる」。

そして、この新しい発見に基づき、**「計算コストをほとんど増やさずに、AI がどのデータを学んでいるかを正確に把握する」**という実用的なツールを提供しました。

【最終的なメッセージ】
これにより、AI 開発者は以下のようなことが可能になります：

偏りの除去： 「なぜ AI が差別発言をしたのか？」という原因データを正確に特定して削除する。
コスト削減： 役に立たない膨大なデータを捨てて、学習時間を短縮する。
セキュリティ： 悪意のあるデータ（毒入りデータ）を素早く見分ける。

つまり、**「AI の学習プロセスを、より賢く、透明性が高く、効率的なものにするための『コンパス』」**が完成したと言えます。

Each language version is independently generated for its own context, not a direct translation.

論文要約：IN-RUN DATA SHAPLEY FOR ADAM OPTIMIZER

本論文は、ICLR 2026 の DATA-FM ワークショップで発表された研究であり、現代の機械学習において広く使用されている適応型オプティマイザ（特に Adam）に対する「In-Run Data Shapley（実行中データシャプレイ）」の手法を提案しています。従来の SGD 向け手法が Adam 環境下で機能しない問題を解決し、スケーラブルかつ高精度なデータ貢献度評価を実現する新しい枠組みを提示しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 背景と問題定義

背景

機械学習モデルの性能や振る舞いは、個々のトレーニングサンプルの質と影響に大きく依存します。バイアスの軽減や計算リソースの無駄遣いを防ぐためには、信頼性の高い「データアトリビューション（データ貢献度の評価）」が不可欠です。その理論的なゴールドスタンダードとして、協力ゲーム理論に基づく**シャプレイ値（Shapley Value）**が挙げられます。

既存手法の限界

シャプレイ値の正確な計算には、データ部分集合ごとにモデルを再学習させる必要があり、計算コストが膨大です。これを回避するため、最近「In-Run Data Shapley」が提案されました。これは、単一のトレーニング実行中に動的に貢献度を推定する手法ですが、Stochastic Gradient Descent (SGD) の線形構造に依存して導出されています。

本研究が提起する課題

現代の深層学習モデルのほとんどは、SGD ではなくAdamなどの適応型オプティマイザを使用してトレーニングされます。

オプティマイザ依存性: データの価値は、最適化アルゴリズムの選択に本質的に依存しているのか？
手法の拡張: 状態依存（モーメント保存）かつ非線形な更新則を持つ Adam に対して、In-Run Data Shapley を拡張できるか？

既存の SGD ベースのアプローチを Adam 環境にそのまま適用すると、真の限界値（Marginal Contribution）との相関が極めて低く（Pearson R ≈ 0.11）、誤った結論を導くことが示唆されました。

2. 提案手法：Adam-Aware In-Run Data Shapley

本研究は、Adam オプティマイザの特性を考慮した新しいデータアトリビューション手法を提案します。

2.1 最適化依存性の実証

まず、SGD と Adam でトレーニングされたモデルにおいて、同じデータセットに対するシャプレイ値を比較しました。その結果、両者の相関は極めて低く（R ≈ 0.0579）、データ価値がサンプル固有の静的な性質ではなく、最適化軌道（Optimization Trajectory）と密接に結合していることが実証されました。

2.2 閉形式推定量の導出

Adam の更新則（モーメント $m_t$ と分散 $v_t$ の補正）を考慮し、局所ユーティリティ関数に対する 1 次テイラー展開を適用することで、閉形式（Closed-form）の近似推定量を導出しました。

従来の SGD 手法では「勾配同士のドット積」を累積しますが、Adam 手法では「更新方向と検証データ勾配のドット積」を累積する形に変換されます。
これにより、シャプレイ値の加算性（Additivity）を維持しつつ、Adam の非線形性を考慮した貢献度評価が可能になります。

2.3 線形化ゴースト近似（Linearized Ghost Approximation）

Adam の分散依存スケーリング項（ $\frac{1}{\sqrt{v_t + \epsilon}}$ ）は非線形であり、従来の効率的な計算手法（Ghost Dot-Product）を直接適用できません。これを解決するため、以下の技術を開発しました。

線形化: 分散項を前ステップの分散値を中心に 1 次テイラー展開し、非線形項を線形近似します。
ゴーストベクトル: これにより、Adam 更新を「現在の勾配」と「過去のモーメント」の線形結合として表現できます。
効率化: これを用いることで、サンプルごとの勾配を明示的に生成（Materialize）することなく、単一のバックプロパゲーションパスで全サンプル間の勾配ドット積を計算可能になります。

3. 主要な貢献

オプティマイザを考慮したデータアトリビューションの確立:
データ価値が最適化アルゴリズムに依存することを理論的・実証的に示し、SGD ベースの代理指標が Adam 環境下で無効であることを明らかにしました。
Adam 向け In-Run Data Shapley の導出:
状態依存と非線形性を考慮した、初の閉形式推定量を提案しました。
スケーラブルな「線形化ゴースト」計算手法:
非線形性を線形近似することで、メモリオーバーヘッドを増大させることなく、バッチサイズに依存しない効率的な計算を実現しました。
高い忠実度と実用性:
真の限界値に対する高い忠実度（R > 0.99）を維持しつつ、標準的なトレーニングスループットの約 95% を保持することを示しました。

4. 実験結果

4.1 実用的有効性

意味的ソース識別（Semantic Source Identification）:
WikiText-2 データセットを用いた実験で、Adam ベースの手法は、SGD ベースや BM25 などの手法と比較して、パラフレーズや類似トピックのクエリに対して、真のソースサンプルをより正確に特定しました（ランクが低い）。
SST-2 におけるデータプルーニング:
DistilBERT を用いた感情分析タスクにおいて、Adam によるアトリビューションスコアに基づいて低貢献度のデータを削除（Bottom-pruning）した結果、ランダム削除や SGD ベースの削除と比較して、高い検証精度を維持しました。特に 30% 削除時でも SGD 手法は精度が急落するのに対し、Adam 手法は安定していました。

4.2 計算効率

スループット: GPT-2 Small での実験において、提案手法（Adam-Ghost）は標準 AdamW トレーニングのスループット（92.41 サンプル/秒）の約 95%（87.85 サンプル/秒）を達成しました。
メモリ使用量: 従来の Naive 実装（サンプルごとの勾配明示）はメモリ使用量が 150% 増加しましたが、提案手法は標準トレーニングと同等のピークメモリ（約 5.2GB）で動作し、大規模モデルへの適用を可能にしました。

4.3 忠実度（Fidelity）

Adam 最適化下での真のユーティリティ変化に対する相関係数は 0.9992 と極めて高く、SGD ベースの代理指標（R ≈ 0.84）を大幅に上回りました。
学習率を変化させても、提案手法は高い忠実度を維持しましたが、SGD ベースの手法は不安定でした。

5. 意義と結論

本論文は、現代の深層学習パイプラインにおいて、**「データアトリビューションは最適化アルゴリズムに依存する」**という重要な洞察を提供しました。SGD 向けに設計された既存手法を Adam 環境に安易に適用することは誤りを招くことを示し、適応型オプティマイザに対応した新しい理論的枠組みと実用的な計算手法を提示しました。

提案された「Adam-Aware In-Run Data Shapley」は、計算コストを最小限に抑えつつ、データクレンジング、バイアス特定、モデル解釈性向上など、大規模モデルのライフサイクル管理において極めて重要な役割を果たすことが期待されます。特に、メモリ効率とスループットを維持したまま高精度な評価が可能である点は、実社会での大規模モデル運用において非常に価値が高いと言えます。

In-Run Data Shapley for Adam Optimizer