Each language version is independently generated for its own context, not a direct translation.

画像編集の「魔法のコンパス」：SGPP とは何か？

この論文は、AI が画像を生成・編集する新しい方法「SGPP（スコア・ガイドド・プロキシマル・プロジェクション）」について説明しています。

一言で言うと、**「AI に『元の画像の雰囲気は残しつつ、新しい要素を加えてほしい』と頼むとき、AI が迷子にならず、かつ無理やり元の形に縛られすぎないよう導く、新しい『道しるべ』」**のようなものです。

以下に、専門用語を排して、身近な例え話で解説します。

1. 従来の方法の「悩み」

AI が画像を編集する際、これまで主に 2 つの方法がありましたが、どちらも欠点がありました。

方法 A：逆走させる方法（Inversion-based）
- イメージ： 元の画像を「逆再生」してノイズにし、そこから「新しい画像」を生成する道筋をたどる。
- 問題点： 「道に縛られすぎ」です。元の画像の形（輪郭や位置）に固執しすぎて、「猫をライオンに変えて」と頼んでも、単に「猫の毛並みがライオンのような猫」になってしまい、本当のライオンにはなりません。これを論文では**「幾何学的なロック（Geometric Locking）」と呼んでいます。
方法 B：確率的なサンプリング（Posterior Sampling）
- イメージ： 確率の法則に従って、ありそうな画像をランダムに探して選ぶ。
- 問題点： 「計算が重すぎて不安定」です。高品質な画像を作るには、AI の頭脳（計算回路）を何度も逆算して計算する必要があり、時間がかかるだけでなく、計算が暴走して画像が崩れてしまうことがあります。

2. SGPP の解決策：「柔らかいバネ」の考え方

SGPP は、この 2 つの欠点を埋める**「統一されたフレームワーク」**です。

核心となるアイデア：エネルギーのバランス

SGPP は、画像を編集するのを**「丘を転がすボール」**に例えています。

** fidelity（忠実性）の丘：** 「元の画像に近い場所」にボールを留めたい（猫の形を保ちたい）。
リアリズム（現実性）の丘： 「AI が知っている美しい画像の場所」にボールを転がしたい（ライオンらしくしたい）。

SGPP は、この 2 つの丘のバランスを**「バネ（Proximal Variance）」**で調整します。

バネが硬い（σp = 0）： 元の画像にガチガチに固定されます（方法 A の「ロック」状態）。
バネが柔らかい（σp > 0）： 元の画像の形は保ちつつ、少しだけ「ライオン」の形に伸び縮みできます。これを**「ソフトガイダンス（Soft Guidance）」**と呼びます。

3. なぜこれがすごいのか？（3 つのポイント）

① 迷子にならない「磁石」の働き

AI がノイズから画像を復元する際、本来あるべき「データの山（マンフォールド）」から外れてしまうことがあります。
SGPP は、AI が持つ「スコア（方向を示す力）」を**「磁石」**のように使います。

もし AI が本来あるべき道から外れそうになると、この磁石が**「戻りなさい！」**と強く引っ張ります（これを「正規収縮」と言います）。
これにより、計算が暴走せず、常に「あり得る美しい画像」の範囲内を安全に移動できます。

② 「猫」から「ライオン」への変身

実験では、猫の画像を「ライオン」に変えるタスクを行いました。

従来の方法： 猫の顔の形が崩れず、ただ毛並みだけライオン風になった「猫ライオン」になってしまいました。
SGPP： 「バネ」を少し緩めることで、猫の顔の輪郭は保ちつつ、「あごの形」や「鬣（たてがみ）」を大胆にライオンらしく書き換えました。元の「猫らしさ（ポーズや背景）」は残しつつ、新しい「ライオンらしさ」を自然に追加できたのです。

③ 追加の学習は不要（Training-Free）

この方法は、新しい AI をゼロから作る必要がありません。すでに訓練された強力な AI（FLUX など）をそのまま使い、「道しるべ（ガイド）」だけを取り替えるだけで動きます。そのため、すぐに使えて、計算コストも抑えられます。

4. まとめ：どんな人にとって役立つのか？

写真編集者にとって： 「この写真の人物の顔は変えずに、背景を夏から冬に変えたい」といった、**「忠実さと創造性のバランス」**を自在に操れるようになります。
修復作業にとって： 傷ついた古い写真を、元の形を崩さずに、AI が推測してきれいに修復できます。

結論：
SGPP は、AI 画像編集において**「厳格すぎる縛り」と「不安定な自由」の狭間に位置する、「しなやかで安全なガイド」**です。まるで、AI が「元の画像の魂」を尊重しつつ、「新しい物語」を自由に紡げるように手助けする、賢いコンパスのような存在なのです。

Each language version is independently generated for its own context, not a direct translation.

論文要約：SCORE-GUIDED PROXIMAL PROJECTION (SGPP)

〜整流化フロー（Rectified Flow）編集のための統一幾何学的フレームワーク〜

本論文は、ICLR 2026 の第 2 回 DeLTa ワークショップで発表されたものであり、生成モデルにおける「整流化フロー（Rectified Flow: RF）」の制御、特に意味編集やブランク画像復元といった逆問題に対する新しいアプローチを提案しています。

1. 背景と課題 (Problem)

整流化フロー（RF）モデルは、標準的な拡散モデルに比べて直線的で効率的な輸送軌道を提供し、高品質な生成を実現しています。しかし、事前学習済みモデルを用いて「意味編集（Semantic Editing）」や「画像復元（Image Recovery）」などの制御された逆問題を解く際には、以下の根本的な課題が存在します。

知覚と歪みのトレードオフ: 入力画像のアイデンティティや構造を維持する（忠実度）ことと、生成された画像が学習されたデータ多様体（Manifold）上にあり、自然に見えること（リアリズム）のバランスを取る難しさ。
既存手法の限界:
- 反転ベースの手法 (Inversion-based): RF-Inversion などが代表例。入力画像のノイズ反転経路を厳密に追跡する「ハードガイダンス」を行う。構造は保たれるが、経路が硬直化しすぎているため（「幾何学的ロック」と呼ばれる）、大きな意味変化や分布外（OOD）のノイズ補正に対応できない。
- 事後サンプリング近似 (Posterior Sampling): DPS (Diffusion Posterior Sampling) などが代表例。尤度勾配を最適化するが、デノイジングネットワークのヤコビアン（Jacobian）を逆伝播させる必要があり、計算コストが高く、高ノイズレベルで不安定になる。

2. 提案手法：SGPP (Methodology)

著者は、決定論的最適化と確率的サンプリングのギャップを埋める**スコアガイドド・プロキシマル・プロジェクション（Score-Guided Proximal Projection: SGPP）**を提案します。これは、ヤコビアンを不要とし、RF のスコア場の幾何学的性質を直接利用するフレームワークです。

2.1 核心的な定式化

復元タスクを、時間依存する多様体上でのプロキシマル最適化問題として再定式化します。時間 $t$ におけるエネルギーポテンシャル $J_t(x_t)$ は以下の 2 つの項で構成されます。

$J_t(x_t) = \underbrace{\frac{1}{2\sigma_p^2(t)}\|x_t - (1-t)x_{ref}\|^2}_{\text{忠実度ポテンシャル (Fidelity)}} - \underbrace{\log p_t(x_t)}_{\text{生成ポテンシャル (Generative)}}$

忠実度ポテンシャル: 入力画像 $x_{ref}$ への近さを保証します。ここで $\sigma_p$ は「プロキシマル分散」と呼ばれるハイパーパラメータです。
生成ポテンシャル: 事前学習された RF モデルのスコア関数 $\nabla \log p_t(x_t)$ であり、データ多様体上の自然な分布を指し示します。

この目的関数を勾配降下で最小化することで、以下の更新則が得られます。

$x_{k+1} = x_k + \eta_k \left( s_\psi(x_k, t_k) - \frac{x_k - (1-t_k)x_{ref}}{(1-t_k)^2\sigma_p^2 + t_k^2} \right)$

2.2 理論的基盤と幾何学的性質

SGPP の最大の特徴は、RF のスコア場が持つ幾何学的分解を利用している点にあります。

スコアの幾何学的分解 (Prop 3.2): 多様体近傍における RF スコアは、以下の 3 つの成分に分解されます。
1. 法線方向の復元力: 多様体からの距離を指数関数的に縮小させる力 ( $-\frac{n_t}{t^2}$ )。
2. 接線方向のドリフト: 多様体上の意味的な進化を導く力 ( $\nabla_T \log p_{M_t}$ )。
3. 曲率項: 多様体の平均曲率ベクトル ( $H_t$ )。
法線収縮性 (Normal Contraction, Prop 3.3): 更新則における法線方向の成分は、入力が多様体から外れていても、それを強制的に多様体上に「スナップ」させる収縮特性を持ちます。これにより、DPS のような不安定性を回避し、分布外入力を安全に処理できます。
MAP 推定との等価性 (Theorem 3.5): 動的システムの平衡状態は、データ多様体に制約された事後分布の最大事後確率（MAP）推定量と一致することが証明されています。

2.3 ソフトガイダンス (Soft Guidance)

パラメータ $\sigma_p$ （プロキシマル分散）を調整することで、制御の硬軟を連続的に制御できます。

$\sigma_p \to 0$ (ハードガイダンス): RF-Inversion と数学的に等価になり、入力経路を厳密に追跡します。
$\sigma_p > 0$ (ソフトガイダンス): 制約を「弾力的」にし、意味的な変化（例：猫をライオンに変える）のために軌道を多様体上で柔軟に逸脱させることを許可します。これにより、アイデンティティの維持と生成の自由さのバランスをトレーニング不要で調整可能です。

3. 主要な貢献と結果 (Contributions & Results)

3.1 理論的貢献

統一フレームワーク: 決定論的最適化と確率的サンプリングを単一の幾何学的枠組みで統合しました。
RF-Inversion の一般化: RF-Inversion は、SGPP の $\sigma_p \to 0$ という極限ケースとして解釈できることを示し、既存手法を理論的に包含しました。
安定性の証明: 「法線収縮性」を理論的に証明し、OoD 入力に対する幾何学的な安定性を保証しました。
ヤコビアンフリー: DPS と異なり、ネットワークの逆伝播やヤコビアンの計算を不要とし、計算効率と安定性を両立しました。

3.2 実験結果

幾何学的検証: 2 次元の「Two-Moons」分布を用いた実験で、DPS はノイズレベルが高いと不安定になり、RF-Inversion は「幾何学的ロック」により意味変化に失敗することを示しました。一方、SGPP は安定して多様体上に収束し、事後分布を適切にサンプリングしました。
ゼロショット意味編集: FLUX モデルを用いた実験（猫をライオンに変えるなど）において、RF-Inversion は形状が固定されすぎて意味変化が不十分でしたが、SGPP（ $\sigma_p=0.2$ ）は「ソフトガイダンス」により、ライオンのたてがみや口元などの構造的変化を生成しつつ、姿勢や背景は元の画像と整合させることに成功しました。
忠実度とリアリズムのトレードオフ: $\sigma_p$ を調整することで、厳密な復元（ $\sigma_p \approx 0$ ）から、高周波数の詳細を生成する自由な生成（ $\sigma_p > 0$ ）まで、連続的な制御が可能であることを実証しました。

4. 意義と結論 (Significance)

SGPP は、事前学習された整流化フローモデルを、追加のトレーニングや補助ネットワークなしで、逆問題（画像復元、編集）に適用するための強力なツールを提供します。

実用性: 計算コストが低く、安定性が高く、トレーニングフリーであるため、実システムへの導入が容易です。
理論的深さ: 生成モデルの制御を「幾何学的な多様体への射影」として捉え直すことで、なぜ既存手法が不安定になるのか、なぜ新しい手法が機能するのかを明確に説明しました。
柔軟性: 「ハードガイダンス」と「ソフトガイダンス」の連続的な制御により、ユーザーはタスクに応じた最適な忠実度と創造性のバランスを微調整できます。

本論文は、生成モデルの逆問題解決において、幾何学的な視点から新たな標準となる可能性を秘めた画期的な研究と言えます。

Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing