Mask-aware inference with State-Space Models

本文提出了 Partial Vision Mamba (PVM),这是一种将部分卷积的掩码感知重归一化机制引入 Mamba 骨干网络的新型架构组件,旨在解决状态空间模型在处理任意形状缺失数据时的推理难题,并在深度补全、图像修复及含无效数据分类等任务中展现了优异性能。

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo, Ivan Huerta

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PVM (Partial Vision Mamba) 的新技术,它能让一种非常先进的 AI 模型(叫 Mamba)学会“忽略”坏数据,只关注好数据。

为了让你更容易理解,我们可以把 AI 模型想象成一个正在拼图的超级工匠,而这张论文要解决的核心问题就是:当拼图缺了一块,或者混进了一些错误的碎片时,工匠该怎么办?

1. 背景:当世界不完美时

在现实生活中,AI 看到的图像往往是不完美的:

  • 深度图(Depth):就像激光雷达扫描,可能因为灰尘或距离太远,有些区域是黑的(缺失数据)。
  • 图片修复(Inpainting):照片里有人脸被路人挡住了,或者被水印遮住了。
  • 分类任务:一张猫的照片,被一只大黑手遮住了一半。

以前的 AI 模型(比如 CNN 或早期的 Mamba)就像是一个死板的工匠。如果你给它一张缺角的拼图,它会把缺失的部分(通常用黑色或零填充)也当成真实的拼图块来处理。这就像工匠试图把一块黑色的“空气”强行拼进画里,结果导致整个画面扭曲、出错。

2. 旧方案:Partial Convolutions (部分卷积)

在传统的 AI 模型(CNN)中,人们发明了一种叫“部分卷积”的方法。

  • 比喻:这就像给工匠戴上了一副智能眼镜。当他看到缺失的碎片时,眼镜会告诉他:“嘿,这块是坏的,别管它,只计算旁边好的碎片。”
  • 结果:工匠能拼出不错的图,但这种方法只适用于旧式的 CNN 模型。

3. 新挑战:Mamba 模型的困境

最近,一种叫 Mamba (Vision Mamba) 的新模型火了。它处理图像的速度极快,而且能理解全局(就像工匠能一眼看穿整幅画的逻辑,而不仅仅是局部)。

  • 问题:但是,Mamba 这种新模型没有那副“智能眼镜”。它处理数据是一连串地“读”过去的。如果它读到一块坏数据(比如被遮挡的像素),它会把这种“坏”的信息传递下去,污染后面所有的数据。就像工匠读到了错误的指令,后面拼的所有东西都错了。

4. 解决方案:PVM (Partial Vision Mamba)

这篇论文的作者给 Mamba 模型装上了这副“智能眼镜”,并创造了一个新组件叫 PVM

核心创意比喻:

想象 Mamba 模型是一个在传送带上工作的流水线

  • 以前的情况:传送带上混进了几个“空盒子”(坏数据/缺失数据)。流水线机械地把空盒子也传下去,导致后面的机器误以为空盒子是零件,最后组装出一堆废品。
  • PVM 的做法
    1. 智能分拣(Partial Patch Embedding):在数据进入流水线之前,PVM 会先检查。如果一块区域是坏的,它不会直接扔掉,而是给它贴上一个特殊的**“隐形标签”**(Learned Masked Token)。
    2. 特殊指令:这个标签告诉流水线:“这个盒子是空的,跳过它,不要把它算进计算里,但也不要让它卡住传送带。”
    3. 动态更新:随着数据在模型里流动,PVM 会不断更新“哪里是好的,哪里是坏的”这张地图。如果两个好数据拼在一起,结果就是好的;如果混进了坏数据,结果就标记为坏。

5. 他们做了什么实验?

作者把这套“智能眼镜”装到了三个不同的任务中,效果惊人:

  1. 补全深度图 (Depth Completion)

    • 场景:给一张只有零星几个点的激光雷达图,让它补全成完整的 3D 地形。
    • 结果:用了 PVM 的模型,比没用的模型准确率高了 23%。就像工匠能完美猜出被遮挡的山峰形状,而旧模型会把山填成平地。
  2. 图片修复 (Image Inpainting)

    • 场景:把照片里被涂抹掉的人脸补回来。
    • 结果:PVM 补出来的人脸更自然、细节更清晰(比如鼻子、头发),而旧模型补出来的脸要么模糊,要么有奇怪的线条。
  3. 带遮挡的分类 (Classification)

    • 场景:给一张被遮住一半的猫的照片,让 AI 猜这是什么。
    • 结果:旧模型看到一半猫一半黑块,就懵了(准确率很低)。用了 PVM 的模型,因为它知道“忽略黑块,只看猫的部分”,准确率提升了 36%

6. 总结

这篇论文的核心贡献在于:
它证明了Mamba 这种强大的新模型,只要加上“忽略坏数据”的机制(PVM),就能在处理残缺、遮挡、不完整的现实世界数据时,表现得比传统模型更聪明、更精准。

一句话概括
以前的 AI 看到残缺的图片会“瞎猜”导致出错;现在的 PVM 让 AI 学会了“视而不见”那些坏数据,只专注于好数据,从而在修补、测量和识别任务中变得超级强大。