Mask-aware inference with State-Space Models

Each language version is independently generated for its own context, not a direct translation.

🎨 物語の舞台：「穴だらけの写真」と「AI 料理人」

想像してください。
あなたが料理人（AI）で、お客様から「この写真を使って、素敵な料理（答え）を作ってほしい」と頼まれました。
しかし、渡された写真には**「穴」**があいています。

雨で濡れて見えない部分
誰かが隠した部分
センサーの故障で黒くなっている部分

これまでの AI（特に「CNN」や「Mamba」と呼ばれる最新の AI）は、**「写真のすべての部分が、ちゃんと見えるものだと信じて」作業を進めていました。
そのため、穴（無効なデータ）を「何もない黒い点」や「ゼロ」として扱ってしまい、その黒い点が料理全体に混ざって、「味が壊れてしまった」り、「形が崩れてしまった」**りしていました。

🛠️ 解決策：「穴を見極める魔法のメガネ」

この論文の著者たちは、**「Partial Vision Mamba（PVM）」という新しい仕組みを開発しました。
これは、「穴（無効なデータ）を見分け、それを無視して、見える部分だけを料理に使う」**という魔法のメガネのようなものです。

1. 従来の AI の失敗：「穴も食材だ！」

従来の AI は、穴を「何もない場所」ではなく、「黒い食材」として扱ってしまいました。

例え話： パスタを作ろうとして、麺の代わりに「石」や「砂」を混ぜ込んでしまったようなものです。AI は「あ、ここに石があるな」と認識してしまい、その石の重みで麺全体が沈んでしまいます。

2. 新しい AI（PVM）の成功：「穴は空っぽとして扱う」

PVM は、「ここは穴だから、ここには何もない（無効）」と明確に認識します。

例え話： 穴の部分は「空っぽの皿」として扱い、「見える麺（有効なデータ）」だけを丁寧に集めて、新しい料理を作ります。
さらに、穴の部分には「魔法のトークン（特別な目印）」を置いておき、AI が「あ、ここは穴だ」と理解できるようにします。

🚀 この技術が活躍する 3 つの場面

この「穴を見極める技術」は、3 つの異なる場所で大活躍しました。

① 車の目（Depth Completion：深度補完）

状況： 自動運転車のカメラやセンサーは、遠くの物体や雨のせいで、距離情報が「点々」としか取れないことがあります。
PVM の働き： 「ここは点がない（穴）から、ここは距離がわからない」と判断し、**「見える点だけ」**を頼りに、滑らかな道路の形を完璧に復元しました。
結果： 従来の AI よりも23% も精度が向上しました。まるで、霧の中を走る車が、霧の部分を無視して、見える道だけを見事に把握できるようになった感じです。

② 写真修復（Image Inpainting：画像修復）

状況： 古い写真に傷がついたり、人物が写り込んだりして、一部分が欠けています。
PVM の働き： 「ここは傷だから、ここは元の写真がない」と認識し、**「周りの見える部分」**だけを参考に、欠けた部分を自然に埋め込みました。
結果： 従来の AI は「傷の周りがボヤけてしまったり、変な線が入ったり」しましたが、PVM は**「鼻の形や髪の毛の一本一本」**まで、自然に復元できました。

③ 写真認識（Image Classification：画像分類）

状況： 「これは犬か猫か？」と AI に聞きたいのに、写真の半分が誰かに隠されて見えていません。
PVM の働き： 「隠れている部分は無視して、見える耳や目だけを見て判断する」という能力を身につけました。
結果： 隠れた写真でも、従来の AI よりも36% も正解率が高まりました。まるで、顔の半分しか見えていない人でも、「あ、あの目元は〇〇さんだ！」と即座に认出（みと）められるようになった感じです。

💡 結論：なぜこれがすごいのか？

これまでの AI は、「写真が全部揃っていないと、うまく動けない」という弱点がありました。
でも、この**「PVM（Partial Vision Mamba）」という新しい技術のおかげで、「どんなに穴だらけの写真でも、見える部分だけを頼りに、最高の答えを出せる」**ようになりました。

従来の AI： 「全部揃ってないと、料理が作れない！」と困り果てる。
新しい AI（PVM）： 「穴は穴として無視して、見える食材だけで最高のお料理を作る！」と得意げにこなす。

これは、現実世界（センサーの故障や隠れた物体など、常に不完全なデータしか手に入らない世界）で AI を使うために、非常に重要な一歩です。

一言で言うと：

「穴だらけの写真でも、見える部分だけを信じて、完璧な答えを出す新しい AI の『魔法のメガネ』が見つかりました！」

Each language version is independently generated for its own context, not a direct translation.

この論文「Mask-aware inference with State-Space Models（状態空間モデルを用いたマスク対応推論）」は、不完全な入力データ（欠損や無効な領域を持つ画像など）を扱うための、新しいアーキテクチャ「Partial Vision Mamba（PVM）」を提案する研究です。以下に、問題定義、手法、主要な貢献、結果、および意義について詳細に要約します。

1. 問題定義

現実世界のコンピュータビジョンタスク（深度補完、画像修復、欠損データを含む分類など）では、センサーエラーやプライバシー保護、スプースなデータ（LiDAR など）により、入力画像に任意の形状の「無効な領域（欠損）」が存在することが一般的です。

既存の課題:
- CNN の限界: 従来の畳み込みニューラルネットワーク（CNN）では、Partial Convolutions（PConvs）という手法で、無効なピクセルを無視して有効なピクセルのみで再正規化を行うことでこの問題に対処してきました。
- SSM/Mamba の欠点: 最近、Transformer に代わる高効率なアーキテクチャとして State Space Models（SSM）、特に Mamba が注目されています。Mamba は線形計算量で高解像度の処理が可能ですが、標準的な実装では入力データをすべて「有効」とみなして処理するため、無効なデータ（プレースホルダー値など）が特徴抽出や隠れ状態に悪影響を及ぼし、推論精度が低下するという問題がありました。
- 既存のマスク対応手法の不足: マスク付き画像モデリング（MIM）は事前学習戦略であり、推論時には完全な画像を想定するため、推論段階で任意の形状の欠損を直接処理できるアーキテクチャとしての解決策は存在しませんでした。

2. 手法 (Methodology)

著者らは、Mamba アーキテクチャに Partial Convolutions の原理を適用し、任意の形状の無効入力に対応できるPartial Vision Mamba (PVM) を提案しました。

2.1 マスク対応フレームワーク

入力データを $(x, m)$ のタプル（ $x$ : データテンソル、 $m$ : 有効性を示すブーリアンマスク）として定義し、ネットワーク内のすべての操作が有効なデータのみを条件として行うように設計するルールを確立しました。

マスクの動的更新: ネットワークを通過するにつれて、各操作（要素ごとの演算、結合、リシェイプ、受容野操作など）に応じてマスク $m$ $m$ が動的に更新されます。
- 例: 畳み込み層において、標準的な層は受容野内に無効なピクセルが 1 つでもあれば出力を無効としますが、PConvs や PVM のような部分的操作では、受容野内に有効なピクセルが 1 つでもあれば出力を有効とみなします。

2.2 Partial Vision Mamba (PVM) ブロック

Mamba のバックボーンを構成する主要なブロックを、以下の 2 つの段階で修正しました。

パッチ埋め込みの修正（Inner-patch 無効性の解決）:
- 画像をパッチに分割する際、パッチの一部が無効な場合、そのパッチ全体が破損したトークンとして扱われる問題を解決します。
- 通常の線形層の代わりに、無効な位置に対して平均パディングを行った後に線形層を適用する「Partial Linear layer」を使用します。これにより、部分的に有効なパッチからも有効なトークンを生成できます。
トークン処理の修正（Inter-patch 無効性の解決）:
- SSM 処理中に無効なトークンが有効なトークンの状態を汚染するのを防ぎます。
- 無効なトークンを、SSM が学習して識別できる「学習済みマスクトークン（Masked Token）」に置き換えます（BERT の [MASK] トークンのような概念）。これにより、無効なデータが出力シーケンスに悪影響を与えることが数学的に排除されます。

2.3 残差接続と特徴マップの整合性

PVM ブロックをネットワークに組み込む際、スキップ接続による再汚染を防ぐため、残差接続の前後でマスクの整合性を保つ設計ルールを定めています。特に、最終的な出力が完全に有効な特徴マップになるように、最後のブロックでは残差接続なしで処理を行うなどの戦略が採用されます。

3. 主要な貢献

Partial Vision Mamba (PVM) の設計: Vision Mamba アーキテクチャ内で無効データを含む入力を処理するための新しいコンポーネントを提案。
マスク対応フレームワークの形式化: PVM を用いて任意の形状の無効入力タスクを設計するための、一連の設計原則とプロパティを確立。
汎用性の実証: 3 つの異なるタスク（深度補完、画像修復、欠損データを含む画像分類）において、PVM 導入による性能向上を実証。

4. 実験結果

4.1 深度補完 (Depth Completion)

データセット: KITTI-3D（LiDAR スパースデータ）。
手法: RGB 画像を補助にせず、スパースな深度データのみを入力とする「PVM-DC」を提案。
結果: マスク非対応の VM ベースライン（VM-DC）と比較し、RMSE（二乗平均平方根誤差）で23% 以上の改善を達成（1.80m → 1.38m）。パラメータ数の増加は最小限でした。

4.2 画像修復 (Image Inpainting)

データセット: FFHQ。
手法: VM-UNet をベースに、PVM を適用した「PVM-UNet-1」と、より複雑なマスク対応設計を施した「PVM-UNet-N」を提案。
結果: 従来の PConvs ベースのモデルや、マスク非対応の VM-UNet よりも、FID（生成画像の品質）と LPIPS（知覚的類似性）の両方で優位な結果を示しました。特に PVM-UNet-N は、髪の毛や鼻などの詳細な構造をより現実的に復元できました。

4.3 欠損データを含む画像分類 (Image Classification with invalid data)

データセット: ImageNet-1k。
手法: PlainMamba をベースに、PVM と Partial Average Pooling を適用した「PVM-Cls」を提案。
結果: 無効なデータ（マスク）が適用されたテストセットにおいて、PlainMamba（25.60%）に対して PVM-Cls は34.93%の Top-5 精度を達成し、相対的に36% の改善を見せました。

4.5 アブレーション研究

マスクトークンのパディング: 無効トークンのパディング戦略として、「ゼロパディング」「平均パディング」「学習済みトークン」を比較。学習済みトークンが最も優れていましたが、SSM 自体の能力により、多少の戦略の違いでも性能は維持されることが示されました。
マスクの頑健性: 訓練時とは異なるマスクパターン（全体的なランダムマスクなど）に対しても、PVM はベースラインより優位な性能を維持しました。

5. 意義と結論

この研究は、State Space Models（SSM）が持つ高効率性と、不完全な実世界データに対するロバスト性を両立させる重要な一歩です。

技術的意義: Mamba アーキテクチャに「マスク対応」の機構を初めて組み込み、推論段階で任意の形状の欠損を処理可能にしました。
実用性: 深度補完、画像修復、分類など、多様なタスクで有効性が証明されており、LiDAR スパースデータやプライバシーマスクなど、現実世界の不完全なデータ処理に応用可能です。
将来展望: PVM の汎用性は高く、深度拡張などの他のタスクや、新しいマスク対応スキャン戦略の開発などへの展開が期待されます。

要約すれば、この論文は「不完全な入力データに対しても、Mamba の高い計算効率を維持しつつ、高精度な推論を可能にする新しいアーキテクチャと設計指針」を提供した点に最大の意義があります。