Each language version is independently generated for its own context, not a direct translation.

動画の「未来を予見して」鮮明にする新技術：TS-Mamba の解説

この論文は、**「オンライン動画超解像（Online Video Super-Resolution）」という技術を扱っています。
簡単に言うと、「低画質でぼやけた動画を、リアルタイムで高画質に鮮明にする魔法」**のようなものです。特に、ライブ配信やビデオ会議のように「今、見ている瞬間」に処理する必要がある場合に重要です。

この論文で提案されている新しい仕組み**「TS-Mamba」**を、難しい数式を使わずに、日常の例え話で説明しましょう。

1. 従来の方法の悩み：「隣の人」しか見ていない

これまでの動画鮮明化技術は、「今のフレーム（画像）」を鮮明にするために、「直前の 1 フレーム」しか見ていませんでした。

例え話：
あなたが歩いているとき、**「今、目の前の地面」**だけを見て、次の一歩を踏もうとしています。
しかし、もし地面が滑りやすかったり、曲がり角があったりすると、直前の 1 歩の情報だけでは、安全に歩くことができません。「3 歩前」や「5 歩前」の動きを覚えておけば、もっとスムーズに歩けるのに、と嘆いている状態です。
これまでの技術は、この「直前の 1 フレームしか見ない」という制限があり、複雑な動きの動画では鮮明さに限界がありました。

2. TS-Mamba のアイデア：「軌跡（トレイジ）」をたどる

この新しい技術（TS-Mamba）は、**「過去のすべての動きの軌跡（トレイジ）」を頭の中で描き、そこから「最も似ている部分」**だけを選んで持ってくるというアイデアです。

例え話：
あなたが公園を歩いているとします。TS-Mamba は、**「あなたが 10 秒前に通った道」や「5 秒前に見た木」を思い出し、「今、目の前の木と形が最も似ている部分」だけを過去から引っ張り出してきます。
これにより、「直前の 1 フレーム」だけでなく、「長い時間前の情報」**も活用して、今の画像を補完できるのです。まるで、過去の記憶を総動員して、今の状況を完璧に理解している探偵のようです。

3. 核心技術：「Mamba」と「シフト（移動）」の魔法

この技術の心臓部には、**「Mamba（マンバ）」という新しい AI の仕組みが使われています。Mamba は、大量の情報を「計算コストが安く、かつ高速」**に処理できるのが特徴です。

しかし、Mamba には一つ弱点がありました。

弱点： 2 次元の画像を 1 次元の「文字列」のように読み取る際、**「隣り合っているはずのピクセル（画素）が、読み取り順でバラバラになってしまう」**という問題です。
- 例え話： 本棚の本を、上から下へ、左から右へと順番に並べ替えて読み取ろうとすると、「隣にあった本」が「遠く離れた場所」に飛んでしまうようなものです。これでは、画像の連続性（滑らかさ）が損なわれます。

これを解決するために、TS-Mamba は**「シフト（ズラす）」**という工夫をしました。

解決策： 本棚の本を並べ替える際、**「少しだけ位置をずらして（シフトして）」**読み取ることで、バラバラになった隣接関係を元に戻すのです。
- ヒルベルト走査（Hilbert Scanning）： 画像をジグザグに読み取る特殊な方法を使いますが、これだけでは「隙間」ができてしまいます。
- シフト操作： その「隙間」を埋めるために、読み取り順序を 4 つのパターンでズラし、**「隙間を完全に埋めて、隣り合った情報が途切れないように」**する仕組みです。

4. 結果：「高速」かつ「高画質」

この仕組みを組み合わせることで、TS-Mamba は以下の劇的な成果を上げました。

高画質： 過去の長い軌跡をたどって情報を集めるため、動きが激しい場面でも、ぼやけずに鮮明に再生されます。
高速・軽量： 従来の「高画質＝重い（計算が膨大）」という常識を覆し、計算量を 22.7% も削減しながら、最高の画質を実現しました。
- 例え話： 高級スポーツカー（高画質だが重くて燃料を大量に使う）ではなく、**「軽くて速いハイブリッドカー」**のような存在です。同じ距離（画質）を走れるのに、ガソリン（計算リソース）は半分以下で済みます。

まとめ

この論文が提案する**「TS-Mamba」**は、以下のようなことを実現しました。

過去の「軌跡」をたどる： 直前の 1 枚だけでなく、過去の動き全体から「似ている部分」を探し出す。
隙間を埋める「シフト」： 情報を整理する際に、隣り合った情報が途切れないよう、読み取り順序を工夫して補正する。
リアルタイム実現： 重い計算をせずとも、ライブ配信やビデオ会議でもサクサク動く高画質化を実現する。

これは、私たちが毎日見ている動画が、もっと鮮明で、もっとスムーズになる未来への一歩と言えるでしょう。

Each language version is independently generated for its own context, not a direct translation.

論文要約：Trajectory-Aware Shifted State Space Models for Online Video Super-Resolution (TS-Mamba)

この論文は、ICLR 2026 にて発表された、オンライン動画超解像（Online Video Super-Resolution: VSR）のための新しい手法「TS-Mamba」に関する研究です。従来のオンライン VSR 手法が抱える「長期的な時間依存関係のモデル化の難しさ」と「計算コストの高さ」という課題を解決するため、状態空間モデル（SSM、特に Mamba）の低計算量特性と、動画内の軌道（Trajectory）に基づく効率的なトークン選択を組み合わせるアプローチを提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義 (Problem)

オンライン VSR は、ライブ会議や生放送など、低遅延・低計算コストが求められるリアルタイムアプリケーションにおいて重要です。既存の手法には以下の課題がありました。

時間的制約: 多くの既存手法は、現在のフレームを復元する際に、直前の 1 フレームのみを使用するか、CNN ベースの短期間の時系列情報に依存しています。これにより、動画の長期的な時間的依存関係（Long-range temporal modeling）を十分に活用できず、復元品質に限界があります。
計算コスト: 長期的な情報を活用する手法（Transformer や拡散モデルなど）は精度が高いものの、計算量が膨大であり、リアルタイム処理には不向きです。
Mamba の課題: 最近注目されている Mamba（SSM の一種）は線形計算量と大域受容野を持ちますが、2D 画像を 1D トークン列に変換する「走査（Scanning）」プロセスにおいて、空間的な連続性が失われる（Discontinuity）という問題があります。特に Hilbert 走査では、ウィンドウ内およびウィンドウ間の不連続性が生じ、画質低下の原因となります。

2. 手法 (Methodology)

提案手法 TS-Mamba は、動画内の「軌道（Trajectory）」を構築し、それに基づいて過去フレームから最も類似したトークンを選択・集約するアーキテクチャです。

2.1 軌道に基づくトークン選択 (Trajectory-aware Token Selection)

動画内の各ピクセル（トークン）の時間的な動きを追跡する「軌道」を構築します。
現在のフレームのトークンと、過去フレームの軌道上にあるトークンの間でコサイン類似度を計算し、最も類似したトークン（ $s$ 個）を選択します。
これにより、単なる近傍フレームだけでなく、時間的に遠く離れたフレームからも、動きに合わせて最も関連性の高い情報を効率的に抽出できます。

2.2 軌道認識シフト型 Mamba 集約モジュール (TSMA)

選択されたトークンを集約するために、新しいモジュール「TSMA」を提案しています。

Scan-Shift-Scan パターン: 標準的な SSM ブロックと、提案する「シフト型 SSM（S-SSM）」ブロックを組み合わせます。
Hilbert 走査とシフト操作: Hilbert 走査による空間的不連続性を補償するため、4 種類の異なる走査パターンと、ウィンドウのシフト操作（上、左上、右下など）を組み合わせた「Scan-Shift-Scan」方式を採用しています。
- 具体的には、2 つの並列ブランチ（IntraWCB: ウィンドウ内補償、InterWCB: ウィンドウ間補償）を持ち、それぞれ異なるシフト操作と走査パターンの組み合わせ（例：Scan-1 → U(1) → Scan-3）を用いることで、Hilbert 走査による不連続性を最小化し、空間的連続性を強化します。
SS3D: 時間次元に沿って空間 Hilbert 選択的走査を行い、時空間的な特徴を効率的に捉えます。

2.3 軌道認識損失関数 (Trajectory-aware Loss)

トークン選択の精度を向上させるため、生成された軌道が高解像度（HR）動画の軌道と整合性を持つようにする新しい損失関数 $L_{trj}$ を導入しています。これにより、トレーニング中に軌道生成の精度が最適化されます。

3. 主要な貢献 (Key Contributions)

初の SSM ベースのオンライン VSR モデル: 既存の CNN ベースの手法とは異なり、トークンレベルで過去フレームからの長期的な時空間情報を集約する、初の SSM ベースのオンライン VSR モデルを提案しました。
軌道に基づく Mamba の拡張: 動画の「軌道」概念を Mamba に初めて導入し、過去フレームから最も類似したトークンを選択するメカニズムを設計しました。これにより、効率的なトークンレベルの時空間集約を実現しました。
不連続性を補償するシフト型 SSM ブロック: Hilbert 走査のウィンドウ内・ウィンドウ間の不連続性を補償し、Mamba の空間的連続性を強化するための、4 種類のシフト操作と走査パターンを組み合わせた新しい S-SSM ブロックを設計しました。
高性能かつ低コスト: 3 つの主要なベンチマークデータセット（REDS, Vid4, Vimeo-90K）での実験により、6 つの既存オンライン VSR ベンチマークモデルと比較して、SOTA（State-of-the-Art）性能を達成しつつ、MACs（乗算・加算回数）を 22.7% 以上削減することに成功しました。

4. 実験結果 (Results)

性能: REDS4, Vid4, Vimeo-90K-T などのデータセットにおいて、PSNR と SSIM の両方で既存のオンライン VSR 手法（BasicVSR++, FDAN, KSNet, TMP など）を上回る結果を示しました。
効率性:
- MACs は約 22.7% 削減（例：TMP と比較して 112G vs 176G 程度）。
- 推論速度は 33.5 FPS（180x320 解像度）を達成し、リアルタイム処理（24 FPS 以上）を満足しています。
- パラメータ数は約 3.0M で、軽量なモデルです。
アブレーション研究:
- 軌道生成や軌道損失を除去すると性能が低下し、各コンポーネントの有効性が確認されました。
- シフト操作や補償ブランチを除去すると、Hilbert 走査の不連続性による画質劣化（特にテクスチャや細部）が観測されました。
- 選択トークン数 $s=3$ が性能と計算コストのバランスにおいて最適でした。

5. 意義と結論 (Significance & Conclusion)

TS-Mamba は、オンライン動画超解像において「高精度」と「低計算コスト」の両立を実現した画期的な手法です。

技術的革新: 従来の CNN や Attention ベースの手法が抱える「長期的な時間依存関係の扱いの難しさ」と「計算量の爆発」を、Mamba の線形計算量と、軌道に基づく効率的な情報選択によって解決しました。
実用性: 計算コストが大幅に削減されているため、ライブ配信やビデオ会議など、リソースが制限された環境でのリアルタイム超解像への応用が期待されます。
今後の展望: 本手法は、Mamba の空間的連続性の問題に対する有効な解決策（シフト操作と走査パターンの組み合わせ）を示しており、他のビジョンタスクへの展開可能性も秘めています。

要約すれば、TS-Mamba は「動画の動き（軌道）を考慮したトークン選択」と「Mamba の空間的不連続性を補う新しい走査機構」を融合させることで、リアルタイムかつ高品質な動画超解像を実現した、非常に効率的な新しいパラダイムです。

Trajectory-aware Shifted State Space Models for Online Video Super-Resolution