Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：现在的“超级 AI 模型”（基础模型）真的懂“几何”吗？比如，它们能看懂图片里手关节弯曲了多少度，或者头转了多少度吗？

简单来说，作者发现了一个惊人的"能力错位"现象。

我们可以把这篇论文的核心发现想象成这样一个故事：

1. 核心故事：一个“博学但嘴笨”的专家

想象你雇佣了一位超级天才摄影师（这就是论文里的“基础模型”，比如 CLIP、DINOv2 等）。

他的眼睛（视觉编码器）：极其敏锐。给他看一张手部的照片，他的大脑里瞬间就构建出了完美的 3D 模型，精确计算出了每个手指关节弯曲的角度。他的“大脑”里充满了精确的几何数据。
他的嘴巴（文本生成器）：却非常笨拙。当你问他：“这只手弯曲了多少度？”时，他只能回答：“嗯，大概是个弯曲的手吧，可能是 20 度？或者 30 度？”

论文发现：

直接问嘴巴（文本输出）：误差很大，平均偏差 20 度。这就像让一个精通微积分的人用“大概”、“差不多”这种词来回答数学题。
直接读大脑（冻结特征探针）：如果我们不让他说话，而是直接读取他大脑里的“神经元信号”（通过一个简单的数学工具，叫线性探针），我们能直接读出精确的角度，误差只有 6.1 度。

结论：这位专家完全懂几何，只是他的“嘴巴”（文本生成能力）太笨了，把脑子里的精确信息给“漏”掉了。这就好比一个拥有高清地图的导航仪，却只能用模糊的方言给你指路。

2. 关键发现：不是“脑子”不行，是“说话方式”不行

作者做了一个实验，给这位专家的“嘴巴”做了一次轻量级的特训（技术叫 LoRA 微调，只用了很少的数据和参数）。

结果：经过特训后，专家通过嘴巴说出的答案，误差从 20 度降到了 6.5 度，几乎和直接读大脑一样准了！
这意味着：几何信息并没有丢失，只是原本没有合适的“通道”把它从大脑传输到嘴巴。只要打通这个通道，他就能完美表达。

3. 有趣的“殊途同归”：不同的老师，教出同样的学生

作者测试了 14 种不同的 AI 模型（有的像 CLIP，有的像 DINOv2，有的像 Qwen）。

现象：这些模型长得完全不同，训练方法也不一样（有的靠自学，有的靠对比学习）。按理说，它们脑子里的“几何地图”应该长得不一样。
事实：尽管它们脑子里的“地图”长得不一样（相似度很低），但当我们要从中提取“手关节角度”这个任务时，它们的表现竟然惊人地一致（准确率都在 55% 左右，统计学上视为等价）。
比喻：这就像是用油画、水墨画、像素画三种完全不同的画法，最后画出来的“苹果”在“能不能被识别为苹果”这件事上，效果是一模一样的。这说明，只要训练目标对了，不管用什么“画法”（架构），AI 都能学会几何。

4. 为什么有时候准，有时候不准？（看场景）

看手（关节多、动作复杂）：如果图片里手很大，背景很乱，AI 的注意力容易分散。这时候，如果我们把注意力集中在“手”这个区域（就像人眼聚焦），准确率会大幅提升。
看物体（比如一个杯子）：如果图片里只有一个杯子，背景干净，AI 的“大脑”里几何信息是均匀分布的，这时候不管怎么聚焦，效果都差不多。

5. 这对我们有什么用？（省钱又高效）

这篇论文给了开发者一个超实用的“省钱秘籍”：

以前，如果你想让 AI 识别手势、头向、物体位置，你可能需要专门训练一个巨大的、昂贵的模型。
现在，你可以这样做：

找一个已经训练好的、通用的“超级摄影师”（冻结的基础模型），这个大家伙已经存在了，不用重新训练。
针对你的具体任务（比如识别手指角度），只加一个极小的“翻译器”（探针，只需要几千个参数，就像给大模型贴了个便签）。
用很少的数据（几千张图片）训练这个“翻译器”。

效果：你得到了一个能精准测量几何数据的系统，而且成本极低，因为那个最贵的“大脑”是现成的，你只花了很少的钱去“激活”它。

总结

这篇论文告诉我们：

现在的 AI 其实很懂几何，只是它们“嘴笨”，不会用文字精确描述。
只要换个方式读取（用探针或微调），就能把这种能力释放出来。
不管模型长什么样，只要训练得当，它们都能学会几何。
未来应用：我们可以用极低的成本，让现有的大模型变身成为精准的“几何测量仪”，用来做手势控制、机器人抓取、医疗分析等任务，而无需从头训练庞大的模型。

这就好比我们不需要重新发明一个会说话的人，只需要给那个已经拥有完美视力的人，配一副合适的“翻译眼镜”，他就能完美地告诉你世界的精确形状。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着视觉 - 语言模型（VLMs）在定量视觉任务中的部署日益广泛，业界缺乏对其表征能力如何编码连续物理测量值（如关节角度、物体姿态、相机内参等）的系统性理解。

核心痛点：实践者通常通过提示词（Prompting）让 VLM 输出定量估计，但结果往往不精确，误差高达 20°-39°。
关键疑问：这种低精度是源于模型表征本身缺乏几何信息（Representational Deficit），还是仅仅因为文本生成路径无法有效表达这些连续信息（Pathway/Text Bottleneck）？
现有局限：之前的研究（如 Fu et al.）指出 VLM 的视觉特征包含深度和对应关系信息，但文本生成会丢弃这些信息，然而尚未提供针对连续测量的建设性解决方案。

2. 方法论 (Methodology)

作者提出了一种系统性的**线性探测（Linear Probing）**框架，旨在从冻结的基础模型特征中提取连续几何量，并对比文本路径的表现。

实验设置：
- 输入：图像 $x_i$ 和冻结的模型 $f$ 。
- 特征提取：提取隐藏层激活值 $H^{(\ell)}$ ，进行空间平均池化得到全局特征向量 $\bar{h}_i$ 。
- 探测头（Probe）：使用**降秩岭回归（Reduced-Rank Ridge Regression, RRR）**将特征映射到连续目标 $y_i$ $y_{i}$ （如关节角度，单位：度）。
  - 超参数：秩 $r \in \{3, 4, 5, 6, 8\}$ ，正则化 $\alpha \in \{1, 10, 100, 1000\}$ 。
  - 选择策略：在验证集上选择 $R^2$ 最高的层。
- 数据集：涵盖四类任务：
  1. 手部姿态：FreiHAND（32,560 张图，21 个 3D 关键点）。
  2. 头部姿态：BIWI（15,678 张图，偏航/俯仰/翻滚）。
  3. 物体姿态：YCB-Video（21 个物体，6DoF 姿态）。
  4. 视线方向：MPIIFaceGaze。
- 模型范围：评估了 14 种基础模型，包括自监督（DINOv2/3）、对比学习（CLIP, SigLIP）、混合 VLM（SigLIP 2, InternViT）和生成式 VLM（Qwen2.5-VL, Gemma 3），以及 CNN 基线（ConvNeXt）。
对比实验设计：
1. 冻结探针 vs. 文本生成：对比直接读取特征与通过文本解码器输出的误差。
2. LoRA 微调：测试轻量级微调（LoRA, $r=16$ , 2000 张图）能否教会文本路径读取几何信息。
3. 架构消融：控制预训练数据（ImageNet-1K），对比 ViT 与 CNN 架构，以及不同预训练目标（自监督 vs. 监督）的影响。
4. 表征相似性分析：使用线性 CKA（Centered Kernel Alignment）分析不同模型间的表征相似度与探测精度的关系。

3. 主要贡献与发现 (Key Contributions & Results)

3.1 文本瓶颈是“路径训练缺陷”而非“表征缺陷”

发现：冻结特征通过线性探针在手部关节角度预测上达到了 6.1° MAE，而同一模型的最佳文本输出（Few-shot prompting）仅为 20.0° MAE，差距达 3.3 倍。
LoRA 的作用：仅使用 2,000 张图像对文本路径进行 LoRA 微调（ $r=16$ ），即可将文本输出的 MAE 降至 6.5°，几乎追平了冻结探针的性能。
结论：几何信息确实编码在冻结特征中，但未被路由到文本生成路径。LoRA 充当了“读取接口”，恢复了被丢弃的信号。

3.2 训练目标决定精度，而非架构

发现：在 FreiHAND 数据集上，五种架构各异的编码器（SigLIP 2, DINOv3, CLIP, SigLIP, InternViT）收敛到了统计上等效的精度（ $R^2 \approx 0.55$ ），尽管它们的表征相似度（CKA）低至 0.41。
功能收敛 vs. 表征收敛：这证明了**功能收敛（Functional Convergence）可以在表征不收敛（Representational Dissimilarity）**的情况下发生。
预训练的影响：受控消融实验显示，自监督/对比学习预训练比监督学习（ImageNet-1K）带来了约 0.15 的 $R^2$ 提升。架构差异（ViT vs. CNN）在匹配预训练数据后影响甚微。

3.3 几何编码的空间任务依赖性

发现：几何信息的空间分布取决于任务类型。
- 松散构图（如 BIWI 人脸）：几何信息集中在特定区域（面部）。移除高范数 Patch 会导致 $R^2$ 大幅下降（-0.13），注意力池化（Attention Pooling）能显著提升性能。
- 紧密裁剪（如 YCB-Video 物体）：几何信息分布均匀。Patch 移除对性能影响极小（-0.003），注意力池化无增益。
结论：这解释了为何不同数据集上的注意力机制增益存在巨大差异。

3.4 跨任务验证

研究在头部姿态、刚性物体姿态、视线方向和相机内参（焦距）上均验证了上述发现。
相机内参：冻结特征甚至能线性编码相机焦距（ $R^2 = 0.81-0.94$ ），表明其具备多任务几何感知能力。
层级轨迹：自监督模型在深层（L16-L20）几何信号最强，而生成式 VLM 的解码器层在早期层达到峰值后迅速下降，表明自回归处理会丢弃精细的关节角度信息。

4. 技术细节与统计显著性

统计检验：使用 TOST 等价性检验（ $\Delta=0.03$ ）确认了五个顶级模型在统计上无差异；Friedman 秩和检验（ $\chi^2 = 94.3, p < 10^{-15}$ ）确认了模型排名的显著性。
CKA 分析：CKA 相似度与探测精度差异之间无相关性（Spearman $\rho = 0.03, p = 0.88$ ），进一步支持了“功能收敛无需表征对齐”的结论。
局限性：
- 拇指关节由于方差低，所有模型表现均差（ $R^2 \approx 0$ ）。
- 头部姿态中的 Roll 角预测较难，需注意力池化辅助。
- CKA 分析样本量较小，可能存在未检测到的中等相关性。

5. 意义与应用 (Significance)

理论意义：
- 扩展了“柏拉图表征假设”（Platonic Representation Hypothesis）：不同模型可以学习不同的表征策略，但最终在特定任务（如几何测量）上实现功能收敛。
- 揭示了 VLM 中“文本瓶颈”的本质是训练路径的缺失，而非视觉编码器的无能。
实践价值：
- 低成本多任务感知：无需为每个几何任务训练专用模型。只需一个冻结的骨干网络（约 3 亿参数），为每个任务添加约 6,000 个参数 的线性探针，即可实现手部、头部、物体姿态及相机内参的测量。
- 参数效率：相比专用模型（如 MediaPipe 3.8M 参数），探针方案实现了极高的参数效率（50,000:1 的比例）。
- 人类可读输出：通过 LoRA 微调，可以将高精度的几何测量转化为自然语言描述，同时保持精度。

总结

该论文通过严谨的探测实验证明，现代基础视觉模型（包括 VLMs）的冻结特征中已经蕴含了丰富的连续几何信息。目前的精度瓶颈主要在于文本生成路径未能有效利用这些信息，而非模型本身缺乏几何理解能力。通过轻量级的线性探针或 LoRA 微调，可以低成本地解锁这些能力，为多任务几何感知提供了一种高效、通用的解决方案。