Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种巧妙的方法，解决了让“深度估计 AI"适应鱼眼相机的问题。为了让你轻松理解，我们可以用几个生动的比喻来拆解它。

1. 核心问题：当“近视眼”AI 戴上“哈哈镜”

想象一下，现在的基础单目深度估计模型（FMDEs）（比如 MiDaS, DepthAnything 等）就像是一个极其聪明的“深度侦探”。

它的特长：它在海量的**普通相机（透视相机）**照片上受过训练。普通相机拍出来的世界是直的，线条是直的，就像我们肉眼看到的正常世界。这个侦探非常擅长在这种“正常世界”里判断物体离它有多远。
遇到的麻烦：现在，自动驾驶汽车、机器人等需要鱼眼相机（广角镜头）。鱼眼相机拍出来的照片，边缘是弯曲的，就像透过哈哈镜看世界一样。
后果：当这个“深度侦探”直接看鱼眼照片时，它彻底懵了。因为它习惯了直线条，看到弯曲的线条就以为物体变形了，导致它算出的距离全是错的（比如把远处的墙算成近在咫尺）。

传统的解决方法通常有两种，但都有大毛病：

把照片“拉直”：先通过算法把鱼眼照片的弯曲部分强行拉直，变成普通照片，再给侦探看。
- 缺点：就像把一张皱巴巴的纸强行熨平，虽然变直了，但纸上的图案（像素）会拉伸、变形、甚至丢失细节（产生伪影）。而且，如果相机参数没校准好，拉直的过程本身就会出错。
重新训练侦探：专门给这个侦探找一堆鱼眼照片，让它重新学习。
- 缺点：鱼眼照片太少了（就像只有几本字典，而普通照片有图书馆那么多），重新训练出来的侦探可能只认识鱼眼世界，忘了怎么在普通世界里工作，变得“偏科”了。

2. 创新方案：给侦探戴一副“特制眼镜”（校准令牌）

这篇论文的作者想出了一个绝妙的主意：既然侦探本身很聪明，只是不适应鱼眼照片，那我们不需要重新教它，也不需要把照片拉直，而是给它戴一副“特制眼镜”。

这副眼镜就是论文提出的**“校准令牌”（Calibration Tokens）**。

什么是令牌？ 在 AI 的 Transformer 架构（一种处理图像的高级神经网络）中，数据被切分成一个个小碎片（Token）。作者引入了几个额外的、可学习的“小标签”，就像给侦探的输入数据加上了几个特殊的“提示词”或“眼镜片”。
它怎么工作？
- 当侦探看到鱼眼照片时，这些“校准令牌”会悄悄介入，告诉侦探：“嘿，注意看，这张图是弯曲的，但里面的物体关系其实和正常图是一样的，请调整你的理解方式。”
- 这些令牌会微调侦探大脑中的“特征理解”（潜空间嵌入），把鱼眼照片那种“弯曲的、怪异的”特征，强行拉回到侦探熟悉的“正常的、直的”特征分布上。
- 结果：侦探不需要重新学习，它依然用原来的大脑，但因为戴了这副“眼镜”，它能瞬间理解鱼眼照片，算出准确的距离。

3. 训练过程：不用真鱼眼，用“魔法变形”

你可能会问：“既然没有那么多鱼眼照片，怎么训练这副‘眼镜’呢？”

作者用了一个非常聪明的**“自监督”** trick（技巧）：

素材：他们手里有海量的普通照片（透视照片）。
魔法：在电脑里，他们把这些普通照片人为地扭曲，模拟成鱼眼照片的样子（就像在 PS 里把照片拉弯）。
对比：
- 让侦探看原始的正常照片，它算出一个深度（这是标准答案）。
- 让侦探看被扭曲的“假鱼眼”照片（此时还没戴“眼镜”），它算出一个错误的深度。
- 关键一步：把“假鱼眼”算出的错误深度，反向扭曲回正常状态，然后和“原始正常照片”算出的深度做对比。
学习：如果两者不一样，就告诉“眼镜”（校准令牌）：“你还没调好，再调整一下，直到你戴上眼镜看扭曲图时，算出的结果和看原图一样准。”

这样，他们就不需要真实的鱼眼照片和昂贵的深度真值数据，只用普通的照片就能把“眼镜”训练好。

4. 为什么这个方法很牛？

无损：不需要把照片拉直再拉弯，原始照片的像素一点都没丢，就像直接透过眼镜看，而不是把照片熨平。
轻量：只需要训练几个小小的“令牌”（就像给 AI 加了几个参数），而不是重训整个庞大的模型。计算量增加几乎可以忽略不计（不到 1%）。
万能：训练好这一套“眼镜”，既可以给室内用，也可以给室外用；既可以给 MiDaS 模型用，也可以给 DepthAnything 用。一套令牌，通吃所有场景。
兼容：如果侦探要去看普通照片，把“眼镜”摘下来就行；要看鱼眼照片，戴上就行。互不干扰。

总结

这就好比一个习惯了在平地上跑步的冠军运动员（基础 AI 模型），突然被要求去走钢丝（鱼眼相机）。

旧方法：要么把钢丝拉直（图像校正，会失真），要么让运动员重新练走钢丝（重新训练，费时费力且可能忘了平地跑步）。
新方法：给运动员穿上一双特制的平衡鞋（校准令牌）。这双鞋能自动帮他调整重心，让他穿着它既能走钢丝，也能跑平地，而且不需要他重新练基本功，穿上就能跑，跑得还特别稳！

这篇论文的核心贡献就是发明了这双“特制平衡鞋”，让现有的 AI 模型能瞬间适应鱼眼相机，既省钱又高效。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：现有的基础单目深度估计器 (FMDEs)（如 MiDaS, DepthAnything, UniDepth 等）通常在大规模透视图像（Perspective Images）数据集上训练，具有极强的泛化能力。然而，当直接应用于鱼眼相机（Fisheye Cameras）图像时，由于鱼眼镜头产生的严重畸变（Covariate Shift，即协变量偏移），这些模型会产生错误的深度估计，表现为模糊、不准确。
现有解决方案的局限性：
1. 重校准/去畸变 (Recalibration/Undistortion)：将鱼眼图像投影回透视视图。这种方法容易受相机内参误差影响，且重投影过程会引入空间伪影（拉伸、混叠、信息丢失），导致深度估计性能下降。
2. 单独训练鱼眼模型：由于公开的鱼眼图像数据集规模远小于透视图像（相差数十倍），难以训练出具有大规模泛化能力的 FMDE。
3. 微调 (Fine-tuning)：在鱼眼数据上微调现有模型会导致“参数漂移”，使模型失去在透视图像上的泛化能力，且需要为不同场景训练专用模型，增加了操作开销。

2. 方法论 (Methodology)

作者提出了一种名为 校准 Token (Calibration Tokens) 的轻量级适配机制，旨在不重新训练整个模型的情况下，将鱼眼图像的潜在嵌入（Latent Embeddings）对齐到透视图像的分布。

核心思想

利用基于 Transformer 架构的 FMDE 中的注意力机制，通过插入可训练的 Token 来调制鱼眼图像的潜在表示，使其“看起来”像透视图像，从而让预训练的解码器能够正确输出深度图。

具体技术细节

校准 Token (Calibration Tokens)：
- 引入一组轻量级的可学习 Token ( $\phi$ )，将其拼接到输入序列中。
- 多层调制 (Layer-wise Modulation)：不同于仅在输入层添加 Token，该方法在编码器的每一层都添加一组独特的 Token。这确保了 Token 能够在全网络范围内持续调制特征嵌入，有效缓解协变量偏移。
- 无空间变换：推理过程中直接处理原始鱼眼图像，不进行任何空间重投影，保证了输入图像的无损性。
自监督训练目标 (Self-Supervised Objective)：
- 数据合成：利用大量现有的透视图像数据集，通过人工鱼眼畸变参数（基于 Kannala & Brandt 模型）合成鱼眼图像对。
- 损失函数设计：
  - 输入：透视图像 $I$ 和合成鱼眼图像 $T \circ I$ 。
  - 目标：利用预训练 FMDE 对透视图像 $I$ 输出的高质量深度图 $\tilde{d}$ 作为监督信号（伪真值）。
  - 过程：模型对合成鱼眼图像进行预测得到 $\hat{d}$ ，然后利用逆变换 $T^{-1}$ 将 $\hat{d}$ 重投影回透视参考系。
  - 损失计算：计算重投影后的鱼眼深度与原始透视深度之间的差异（使用 LogL1 Loss）。
  - 优势：这种“输入畸变、输出还原”的策略避免了在损失计算中引入重投影伪影，且无需鱼眼图像的真值标签。
推理阶段：
- 对于鱼眼图像：在输入序列中拼接校准 Token。
- 对于透视图像：直接输入，不拼接 Token。
- 实现了同一模型对两种相机类型的无缝兼容。

3. 主要贡献 (Key Contributions)

提出校准 Token 机制：一种轻量级的适配方法，通过调制潜在嵌入而非重投影图像，成功将基于透视图像训练的 FMDE 扩展至鱼眼相机。
自监督训练框架：设计了一种无需鱼眼真值标签的训练方案，利用透视图像的大规模数据，通过合成畸变和逆变换损失来校准模型。
多层 Token 策略：证明了在 Transformer 的每一层添加 Token 比仅在输入层添加更有效，能更好地对齐特征分布。
通用性与效率：
- 仅需训练一组 Token 即可同时适用于室内和室外场景。
- 参数增加极少（<0.1%），推理延迟增加微乎其微（<1ms）。
- 保持了模型在透视图像上的原始性能（向后兼容）。

4. 实验结果 (Results)

数据集：
- 训练：混合了 NYUv2, VOID, IRS, Hypersim (室内) 和 Waymo (室外) 等透视数据集，共约 20 万样本。
- 测试：ScanNet++ (室内鱼眼) 和 KITTI-360 (室外鱼眼，FOV > 180°)。
性能提升：
- 室内 (ScanNet++)：在 MiDaS, DepthAnything, UniDepth 等基座上，RMSE 分别降低了 12%, 17%, 13%。UniDepth + 校准 Token 的表现优于现有的 SOTA 方法 DepthAnyCamera 和 FoVA-Depth。
- 室外 (KITTI-360)：在极度畸变（>180° FOV）下，校准 Token 依然表现出鲁棒性，显著优于基线模型。
对比分析：
- vs. 微调 (Fine-tuning)：微调会导致模型在透视图像上性能大幅下降，而校准 Token 方法在提升鱼眼性能的同时，完全保留了透视图像的性能。
- vs. 重投影方法：避免了重投影带来的信息丢失和伪影。
- 消融实验：证明了 LogL1 Loss 和多层 Token 设计对性能的关键作用；单层 Token 效果较差。

5. 意义与影响 (Significance)

打破数据壁垒：解决了鱼眼深度估计缺乏大规模标注数据的问题，通过“借用”透视数据实现了零样本（Zero-shot）或少样本的迁移。
工程落地价值：
- 降低部署成本：自动驾驶、机器人等混合相机系统无需为每种相机类型训练或维护独立的深度模型，只需加载同一模型并切换 Token 即可。
- 无需内参：推理阶段不需要鱼眼相机的内参标定，降低了系统对硬件标定的依赖和误差敏感度。
范式创新：为将基础视觉模型（Foundation Models）适配到不同传感器模态（如不同 FOV、不同畸变）提供了一种通用的、基于 Token 的轻量级思路。

总结：该论文通过引入“校准 Token"，巧妙地利用 Transformer 的注意力机制，在不破坏原始模型泛化能力的前提下，解决了鱼眼图像深度估计的难题。这是一种高效、通用且无需大量鱼眼数据的解决方案，对自动驾驶和机器人领域的多传感器融合具有极高的应用价值。