PoI: A Filter to Extract Pixel of Interest from Novel Views for Scene Coordinate Regression

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何让电脑更聪明地认路”**的故事。

想象一下，你正在玩一个超级逼真的 3D 游戏，或者让机器人去一个它从未去过的房间找东西。为了做到这一点，电脑需要知道：“我现在在哪里？”以及“我看到的这个物体在现实世界中的确切位置是什么？”

这就引出了两个主要角色：

老派认路法（CPR）： 就像看一张模糊的地图，凭感觉猜“我大概在哪”。只要大方向对就行，细节有点糊也没关系。
精准认路法（SCR）： 就像拿着放大镜，必须精确知道地图上每一个像素点对应的真实世界坐标。如果地图上一个点标错了，整个定位就会出错。

遇到的问题：AI 画的“新地图”太假了

现在的 AI 技术（比如 NeRF 或 3D 高斯泼溅）很厉害，它能根据拍过的照片，脑补出从未拍过的角度（比如从窗户看进去，或者从天花板往下看）。这就像让画家根据几张草图，画出整栋房子的所有角度。

但是，这个“脑补”有个大问题：

AI 只能“拼凑”，不能“创造”： 如果某个角度完全没拍过，AI 只能靠猜测填补空白。结果就是，画出来的图要么模糊，要么结构扭曲，甚至凭空多出了不存在的物体。
后果： 对于“老派认路法”（CPR），这种模糊图还能凑合用；但对于“精准认路法”（SCR），这些模糊和错误的细节就像地图上的假路标，会让机器人彻底迷路，甚至越练越笨。

作者的解决方案：PoI（像素兴趣点）过滤器

为了解决这个问题，作者发明了一套名为 PoI (Pixel-of-Interest，像素兴趣点) 的“智能筛选系统”。我们可以把它想象成**“带滤镜的修图师 + 严格的质检员”**。

这套系统分三步走：

第一步：请“超级画师”来修图（扩散模型）

首先，他们先用 AI 生成那些新角度的图片。但这还不够好，于是他们请了一位“超级画师”（扩散模型）来帮忙。

比喻： 就像 AI 画了一张草图，线条有点乱。超级画师能根据常识，把模糊的地方画清楚，把缺失的角落补全，让图片看起来更真实、结构更合理。

第二步：请“质检员”来挑刺（PoI 过滤器）

虽然画师修过图了，但有些细节可能还是“瞎编”的（比如凭空变出来的墙）。如果把这些错误的细节教给机器人，它会学坏。

比喻： 这时候，PoI 过滤器登场了。它像一个极其严格的质检员。
- 它拿着生成的图片和真实世界的逻辑（重投影误差）做对比。
- 如果某个像素点看起来靠谱（比如墙角的线条对得上），质检员就给它盖个章：“这个像素是兴趣点（PoI），可以学！”
- 如果某个像素点看起来是瞎编的（比如凭空出现的树），质检员就把它扔进垃圾桶：“这个像素是垃圾，千万别学！”

第三步：只学好的，不学坏的

在训练过程中，机器人只学习那些被质检员盖章确认的“好像素”。那些模糊、扭曲的坏像素被自动屏蔽了。

比喻： 就像老师教学生做题，只让学生做正确的例题，把那些有印刷错误的题目直接撕掉，防止学生被误导。

结果怎么样？

作者用了很多真实的场景（比如 7 个室内房间和剑桥的著名地标）来测试。

以前： 直接把 AI 生成的图扔进去训练，效果反而变差了，就像给机器人喂了假地图。
现在（PoI）： 经过“超级画师”修饰，再经过“质检员”筛选，机器人的定位精度大幅提升，甚至达到了目前最顶尖的水平（State-of-the-Art），而且训练速度也很快。

总结

这篇论文的核心思想就是：在教 AI 认路时，不能盲目相信 AI 自己画出来的“新地图”。

我们需要：

先让 AI 把图画得更像样（用扩散模型）。
再派一个严格的质检员（PoI 过滤器），只把那些真正靠谱的细节留下来教给 AI。

只有这样，AI 才能在复杂的现实世界中，既看得全，又看得准，真正学会“认路”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心任务： 视觉定位（Visual Localization），即根据输入图像估计相机在已知场景中的 6 自由度（6DoF）位姿。
主要方法对比：

相机位姿回归 (CPR)： 直接从图像回归位姿（N-to-1）。对局部像素误差容忍度较高，主要依赖全局图像特征。
场景坐标回归 (SCR)： 先预测图像中每个像素对应的 3D 场景坐标，再通过 2D-3D 对应关系估计位姿（N-to-N）。对像素级的几何一致性要求极高。

现有痛点：

数据稀缺： 获取大规模、精确标注的位姿数据成本高昂。
神经视图合成 (NVS) 的局限性： 虽然 NeRF 和 3D 高斯泼溅（3DGS）等 NVS 技术可以生成新视角的图像以扩充数据，但它们本质上是基于观测几何的插值。在稀疏视角或极端视角下，生成的图像常出现模糊、结构缺失或几何失真。
NVS 在 SCR 中的失效：
- 对于 CPR，生成的模糊图像可能仍可接受。
- 对于 SCR，生成的图像中的局部几何错误会导致错误的 2D-3D 对应关系，从而严重破坏坐标回归的精度，甚至导致定位性能下降（如文中图 1 所示，直接加入合成数据反而增加了训练时间并降低了精度）。

核心问题： 如何有效地将神经视图合成（NVS）生成的数据引入到对几何精度要求极高的场景坐标回归（SCR）任务中，同时剔除合成图像中不可靠的像素？

2. 方法论 (Methodology)

作者提出了 PoI (Pixel-of-Interest) 框架，旨在通过生成式增强和像素级过滤策略，实现 NVS 数据在 SCR 中的有效利用。整体流程如图 2 所示：

A. 数据增强与视图合成 (Data Augmentation & Synthesis)

新视角采样： 使用 Fisher 信息采样 (Fisher Sample) 方法，基于查询图像和位姿，选择信息量最大的新相机位姿 ( $P_{novel}$ )。
基础渲染： 使用 3DGS (3D Gaussian Splatting) 渲染新视角图像。针对户外光照变化问题，引入了基于亮度直方图的曝光嵌入（Exposure Embedding）来调整外观。
扩散模型细化 (Diffusion Refinement)： 使用 DIFIX3D+（单步扩散模型）对 3DGS 渲染的粗糙图像进行细化。扩散模型利用生成先验，能够恢复超出几何插值范围的结构性细节，减少模糊和伪影。

B. PoI 模块架构 (PoI Architecture)

PoI 的核心在于像素级的选择性过滤，而非整图处理。

特征提取： 使用预训练的骨干网络分别提取查询图像 ( $I_{query}$ ) 和合成图像 ( $I_{novel}$ ) 的特征。
感兴趣像素提取 (Filtering)：
- 不直接使用整张合成图，而是通过重投影误差 (Reprojection Error) 和梯度信息构建过滤器。
- 过滤策略： 计算合成像素的重投影误差（GT 坐标与重投影坐标的距离）。只有误差低于预设阈值 $\tau_r$ 的像素被视为“感兴趣像素” (PoI)，其余被视为噪声并剔除。
- 渐进式过滤： 训练初期，所有合成像素均被纳入，随着训练进行，逐渐剔除离群点，防止模型被噪声误导。
特征融合与回归： 将查询图像特征与筛选后的合成图像特征（FoI）拼接，通过打乱（Shuffle）像素对齐后，输入到场景特定的 MLP Head 中预测场景坐标。

C. 损失函数设计 (Loss Function)

为了平衡收敛速度与最终精度，设计了动态权重机制：

查询图像像素： 权重始终为 1。
合成图像像素 (PoI)： 权重 $\tilde{\omega}$ 从训练初期的 1 逐渐衰减至 0.01。
公式： $\tilde{\omega} = \omega_{max} - \frac{I_{iter}}{N_{iter}}(\omega_{max} - \omega_{min})$ $\tilde{ω} = ω_{ma x} - \frac{I _{i t er}}{N _{i t er}} (ω_{ma x} - ω_{min})$
- 初期允许模型快速利用合成数据收敛，后期降低合成数据权重，确保最终精度由高质量数据主导。

3. 主要贡献 (Key Contributions)

PoI 框架： 提出了一种像素级过滤框架，通过剔除低质量渲染像素，首次成功将 NVS 数据有效整合到 SCR 定位任务中。
扩散模型增强： 在 NVS 管线中引入单步扩散模型进行细化，突破了纯几何插值的限制，恢复了更合理的结构细节。
渐进式过滤策略： 设计了基于重投影误差的动态过滤机制，解决了合成数据中“噪声像素”破坏几何监督的问题。
SOTA 性能： 在 7Scenes 和 Cambridge Landmarks 数据集上实现了最先进的定位精度，同时保持了具有竞争力的训练效率。

4. 实验结果 (Results)

实验在 7Scenes (室内) 和 Cambridge Landmarks (户外) 数据集上进行。

7Scenes 数据集 (Table I):
- 提出的 PoI (基于 ACE) 方法平均平移误差为 0.4cm，旋转误差 0.13°，优于基线 DSAC* (0.5/0.17) 和 ACE (0.5/0.18)。
- GLPoI (基于 GLACE) 达到 0.3cm / 0.10°，刷新了该数据集的 SOTA 记录。
- 消融实验 (Table III):
  - 直接加入所有合成像素 (dif+poa) 导致性能显著下降（误差从 1.1cm 升至 2.3cm），证明噪声有害。
  - 随机采样像素 (dif+por) 效果不如 PoI，证明基于重投影误差的过滤是必要的。
  - 仅用 3DGS 不加扩散 (3dgs+poi) 效果略逊于结合扩散的方法，证明扩散细化提升了合成质量。
Cambridge Landmarks 数据集 (Table II):
- PoI 和 GLPoI 在平均误差上均优于现有的 SCR 方法（如 DSAC*, GLACE）和 NRP 方法（如 LENS, GSplatLoc）。
- 训练时间约为 25 分钟，与 ACE 等高效方法相当，远快于需要数小时训练的传统 SCR 方法。
稀疏输入场景 (Table IV):
- 在仅输入 10 张图像/场景的极端稀疏条件下，结合扩散 NVS 的 PoI 方法 (dif-poi) 将平移误差从 2.6cm 降低至 1.3cm，显著提升了在数据稀缺情况下的鲁棒性。

5. 意义与结论 (Significance & Conclusion)

理论突破： 揭示了对于 SCR 任务，NVS 数据增强的价值不仅仅取决于“生成图像的真实感”，更取决于像素级的几何可靠性控制。单纯的生成式增强（如扩散模型）不足以直接满足 SCR 的严格监督要求，必须配合显式的过滤机制。
技术价值： PoI 提供了一种通用的解决方案，使得基于 3DGS 等快速渲染技术生成的合成数据能够安全地用于高精度的几何任务，解决了数据标注成本与模型精度之间的矛盾。
应用前景： 该方法特别适用于自动驾驶、机器人导航等需要快速构建场景模型且数据获取受限的场景，能够在稀疏数据下实现高精度的视觉定位。

总结： 本文通过“扩散模型细化 + 重投影误差过滤”的双重策略，成功解决了合成视图几何噪声破坏场景坐标回归的问题，实现了定位精度的显著提升，为视觉定位领域的数据增强提供了新的范式。