Each language version is independently generated for its own context, not a direct translation.

この論文は、**「傷ついた写真をきれいに直す（画像復元）」**ための新しい AI の仕組みについて書かれています。

タイトルは**「Progressive Split Mamba（プログレッシブ・スプリット・マンバ）」です。
難しい専門用語を避け、「大規模な都市の地図を直す仕事」**という例えを使って、この技術が何をしているのか、なぜすごいのかを説明します。

🏙️ 物語：傷ついた都市の地図を直す

想像してください。あなたが**「写真修復の職人」で、古くて傷ついた「巨大な都市の地図（画像）」**を直す仕事を任されたとします。

1. 昔の職人たちの悩み（従来の AI の問題点）

これまでに使われてきた 2 つの主な方法は、それぞれ大きな弱点がありました。

方法 A：近所の人だけを見る職人（CNN）
- やり方： 地図の「1 つのブロック」だけを見て、その周りの数メートルしか見ません。
- 弱点： 近所の家（細かい模様）はよく直せますが、**「都市全体のつながり」**がわかりません。「この建物は遠く離れた川沿いにあるはずだ」というような、遠くの情報を無視してしまいます。
方法 B：空から全体を見る職人（Transformer）
- やり方： 地図の「すべての場所」を一度に見渡します。
- 弱点： 全体像はわかりますが、「近所の細かい家」の形を忘れがちです。また、地図が広すぎると、すべての場所を同時にチェックするのに時間とエネルギー（計算コスト）が莫大にかかってしまいます。

2. 最新の挑戦者：マンバ（Mamba）の登場

最近、「マンバ」という新しい職人が登場しました。

特徴： 非常に速く、長い距離の情報も効率的に処理できます。
問題点： しかし、マンバは**「地図を 1 本の長いロープ（1 次元の列）に伸ばして」**処理しようとする癖があります。
- 問題 1（場所の混乱）： 地図をロープにすると、「隣り合っている家」がロープの上では遠く離れてしまいます。 結果として、細かい模様（近所の関係性）が壊れてしまいます。
- 問題 2（情報の減衰）： ロープの先まで情報を伝えると、**「遠くになるほど情報が薄れて消えてしまう」**という性質があります。地図の端の方の情報が、中心に届く頃にはボヤけてしまいます。

🚀 新技術：PS-Mamba（プログレッシブ・スプリット・マンバ）の解決策

この論文の著者たちは、マンバの弱点を克服するために、**「 Progressive Split（段階的な分割）」**という新しいアプローチを考案しました。

① 地図を「パズル」のように分割する（Topology-Aware Partitioning）

彼らは、地図を 1 本の長いロープにする代わりに、**「大きなパズル」**のように分割します。

やり方： 地図をまず「2 つ」に、次に「4 つ」に、さらに「8 つ」に分割します。
メリット： 分割されたそれぞれのピース（パッチ）の中では、「隣り合った家」がまだ隣り合っています。
- これにより、マンバは「遠く離れた場所」を探す必要がなくなり、**「近所の細かい模様」**を正しく認識して直せるようになります。

② 遠くへの連絡網を作る（Symmetric Cross-Scale Shortcut）

分割すると、ピース同士がつながりにくくなるのでは？という心配があります。

対策： 彼らは**「ショートカット（近道）」**を作りました。
- 大きなピース（全体像）の情報を、小さなピース（細部）へ、そしてその逆へ、直接つなぐ回線です。
- これにより、情報が遠くまで伝わる途中で「薄れて消える」ことを防ぎ、**「都市全体のバランス」**を保ったまま、細部まで鮮明に復元できます。

③ 段階的に組み立てる（Progressive Hierarchy）

単に分割するだけでなく、**「半分」→「4 分の 1」→「8 分の 1」**と、段階的に細かくしていき、また逆に組み立てていきます。

これにより、**「全体像」と「極細のテクスチャ（壁のひび割れや髪の毛など）」**の両方を、バランスよく捉えることができます。

🏆 結果：なぜこれがすごいのか？

この新しい方法（PS-Mamba）を実験した結果、以下のような素晴らしい成果が出ました。

超解像（拡大）： ぼやけた写真を高画質にする際、他の最新の AI よりも**「輪郭がくっきり」とし、「遠くの建物と近くの家の関係」**が自然に再現されました。
ノイズ除去： 写真のザラザラしたノイズをきれいに消しつつ、**「髪の毛の一本一本」**まで失わずに残すことができました。
JPEG アーティファクト除去： 圧縮された写真の「ギザギザ」を消す際も、他の方法より自然な仕上がりになりました。
効率性： 驚くべきことに、この高精度さは**「計算コスト（重さ）」を減らしながら達成されました。つまり、「より速く、より安く、よりきれいに」**直せるようになったのです。

💡 まとめ

この論文の核心は、**「AI に地図を 1 本のロープにせず、パズルのように分割して、隣り合う関係を壊さずに処理させ、さらに遠くとの連絡網（ショートカット）も作ってあげた」**ことです。

これにより、AI は**「近所の細かい話」も「街全体の大きな話」**も、同時に、そして正確に理解できるようになりました。これが、画像復元の分野における大きな一歩です。

Each language version is independently generated for its own context, not a direct translation.

Progressive Split Mamba (PS-Mamba) 技術サマリー

1. 背景と課題 (Problem)

画像復元（超解像、ノイズ除去、JPEG アーティファクト低減など）は、微細な局所構造の保持と長距離の空間的整合性の維持を同時に要求する難題です。既存の手法には以下のような限界がありました。

CNN (畳み込みニューラルネットワーク): 局所的な受容野に制限されており、長距離依存関係のモデル化が困難。
Transformer: 全局的なアテンションにより長距離依存を捉えるが、計算コストが二次関数的に増大し、局所的な構造の保持が不十分になる傾向がある。
Mamba (State Space Models, SSM): 線形時間計算量で長距離依存をモデル化できる有望な手法だが、2D 画像にそのまま適用すると以下の2 つの根本的な欠点が生じる。
1. 局所性の歪み (Locality Distortion): 2D 特徴マップを 1D 列にフラット化（走査）すると、空間的な隣接関係が崩壊し、局所的なテクスチャの復元が困難になる。
2. 長距離の減衰 (Long-range Decay): SSM の安定性駆動型の再帰的ダイナミクスにより、情報が列の遠くへ伝播するにつれて指数関数的に減衰し、グローバルな一貫性が弱まる。

2. 提案手法 (Methodology)

著者らは、これらの課題を解決するためにProgressive Split-Mamba (PS-Mamba) を提案しました。これは、局所性の保持と効率的なグローバル伝播を両立させる階層的な状態空間フレームワークです。

主要な構成要素

プログレッシブ・スプリット・オペレーション (Progressive Split):
- 画像全体を一度に 1D 列に展開するのではなく、幾何学的に整合したパッチ（半分の領域、四分の一、八分の一など）に段階的に分割します。
- これにより、各パッチ内でのみ状態空間モデル（Mamba）を適用し、パッチ内の隣接関係を維持したまま局所構造を保持します。
- 分割されたパッチは独立して処理され、その後マージされます。これにより、再帰の深さが短くなり、局所性の歪みを防ぎます。
対称的なクロススケール・ショートカット (Symmetric Cross-scale Skip Pathways):
- 長距離の減衰に対抗するため、階層レベル間で直接グローバルな低周波コンテキスト（構造情報）を伝達するショートカット経路を導入します。
- これにより、長い Mamba 列を介さずに情報が伝達され、指数関数的な減衰を抑制し、勾配の流れを安定させます。
ハイブリッド・アーキテクチャ:
- 畳み込み前処理: 局所的な連続性と構造パターンを強化するため、Mamba 入力前に軽量な畳み込み層を適用。
- アテンション・フュージョン: 畳み込み特徴と Mamba 特徴を内容適応型ゲートで融合し、さらにチャネル・アテンションと空間アテンション（Dual Attention）を用いて特徴を洗練させます。

計算複雑性

全体として線形計算量 $O(HW)$ を維持しつつ、各パッチ内の再帰深度を大幅に削減することで、安定した情報伝達を実現しています。

3. 主な貢献 (Key Contributions)

プログレッシブ・スプリット・ベースの状態空間モジュール: 2D 構造を維持したまま、線形時間制約内でマルチスケールの推論を可能にする新しいモジュール。ラスタ化に起因する隣接誤差を排除し、微細なテクスチャの安定したモデル化を実現。
対称的なクロススケール・スキップリンク: 長い Mamba 列をバイパスし、グローバル構造情報を直接伝達することで、SSM における指数減衰を打ち消し、低周波の一貫性を強化。
統合された復元アーキテクチャ: 適応的な Mamba-Conv ブロックと双アテンション精製を統合し、状態空間モデルの強み（グローバル性）と局所性の考慮を両立させた新しい復元フレームワークの提案。

4. 実験結果 (Results)

超解像（SR）、ノイズ除去、JPEG 圧縮アーティファクト低減のタスクにおいて、Set5, Set14, BSDS100, Urban100, Manga109 などの標準ベンチマークで評価されました。

軽量超解像 (Lightweight SR):
- MambaIR, MambaIRv2, SwinIR-light などの最先端モデルを、すべてのスケール（2x, 3x, 4x）およびデータセットで明確に上回りました。
- 例：2x 超解像において、Set5 で PSNR 38.31 dB、Urban100 で 33.37 dB を達成。
- パラメータ数と計算量（MACs）のバランスが優れており、MambaIRv2-light よりも少ない計算量で高い性能を達成。
クラシック超解像 (Classic SR):
- 大規模モデル（PS-Mamba-Large）は、MambaIRv2-Large（34.2M パラメータ）よりも少ないパラメータ（21.2M）で、Set5 や Manga109 などのデータセットで SOTA 性能を記録しました。
- 視覚的評価でも、エッジの鮮明さとテクスチャのリアリズムにおいて他手法を上回る結果を示しました。
ノイズ除去と JPEG 低減:
- 色ノイズ除去（ $\sigma=15$ ）および JPEG アーティファクト低減においても、Restormer や他の Mamba 系モデルを上回る性能を達成し、汎用性の高さを証明しました。

5. 意義と結論 (Significance)

SSM の画像処理への適用限界の克服: 従来の Mamba 系モデルが抱えていた「2D 画像への適用による局所性の喪失」と「長距離情報の減衰」という 2 つの構造的課題を、トポロジーを考慮した分割戦略とショートカット機構によって解決しました。
トークンの再順序化不要: 既存の局所性向上手法（ウィンドウのシフトやトークンの再配置など）とは異なり、追加の学習段階や複雑なトークン操作なしに、自然な空間構造を保持したまま効率的なグローバル処理を実現します。
今後の展望: 画像復用だけでなく、動画復元などへの拡張可能性を示唆しており、SSM ベースのモデル設計における新しい指針を提供しています。

総じて、PS-Mamba は、計算効率と復元精度のバランスを最適化し、画像復元タスクにおける新しい基準（SOTA）を確立した画期的な手法です。

Progressive Split Mamba: Effective State Space Modelling for Image Restoration