Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Sea2（See, Act, Adapt，即“看、动、适应”）的新方法。它的核心思想非常有趣：与其费力地给机器人“换大脑”（重新训练模型），不如教它如何“换个角度看世界”。

为了让你更容易理解，我们可以用几个生活中的比喻来拆解这项技术：

1. 核心痛点：为什么“万能大脑”在房间里会“迷路”？

想象一下，你有一个在互联网海量照片上受过训练的超级 AI 摄影师（这就是预训练模型）。它认识所有的猫、狗、沙发，甚至能画出它们的轮廓。

但是，当你把它带进一个真实的、复杂的室内房间时，问题就来了：

角度刁钻：它可能只看到了沙发的背面，或者被桌子挡住了。
光线不同：家里的灯光和网上的照片不一样。
结果：这个“超级摄影师”突然变傻了，它要么认错东西，要么画不出准确的轮廓。

传统的解决办法是：给这个摄影师看很多张这个房间的照片，并告诉它“这是沙发，那是桌子”，让它重新学习（微调）。

缺点：这需要大量的人工标注（太贵、太慢），而且它可能会把以前学到的通用知识给“忘”了（灾难性遗忘）。

2. Sea2 的解决方案：教摄影师“找好位置”

Sea2 提出了一种全新的思路：别动摄影师的大脑，教他怎么移动相机！

这就好比，你不需要重新教一个老练的摄影师什么是“沙发”，你只需要教他：“如果你看不清沙发，就往前挪两步"或者"往左转一点"。

冻结大脑：那个在网络上训练好的 AI 模型（感知模块）完全不动，保持原样。
智能导航员：我们训练一个“智能导航员”（基于大语言模型 VLM 的代理），它的任务不是识别物体，而是控制相机的位置。

3. 它是如何工作的？（两个阶段的训练）

这个“智能导航员”的学习过程分为两步，就像教一个实习生：

第一阶段：手把手教学（监督微调 SFT）

场景：导航员刚入职，什么都不懂。
方法：我们给它看一些“标准答案”的路线。比如：“先转圈找物体 -> 找到后把物体移到画面正中间 -> 如果太小就往前走”。
比喻：就像给实习生一本《操作手册》，告诉他遇到这种情况该往哪走。这让他先学会基本的“找东西”逻辑。

第二阶段：实战演练与自我进化（无监督强化学习 RL）

场景：实习生已经懂规矩了，现在要让他自己变强。
方法：
- 没有老师（没有人工标注的答案）。
- 唯一的反馈：看那个“冻结的摄影师”给出的信心分数。
- 规则：如果摄影师说“我现在看清楚了，信心很高”，导航员就得到奖励；如果摄影师说“太模糊了，我看不准”，导航员就得到惩罚。
比喻：就像你蒙着眼睛在房间里找东西，你手里拿着一个“探测器”。探测器滴答声越快（信心越高），说明你离目标越近、角度越好。你不需要知道目标具体长什么样，只要跟着“滴答声”走，就能找到最佳观察点。

4. 为什么它这么厉害？

不用重新教大脑：无论你要识别的是猫、沙发还是 3D 盒子，那个“超级摄影师”都不用动，直接拿来就用。
不需要人工标注：训练过程中不需要人告诉它“这是沙发”，只需要看模型自己的反馈。
适应性强：它能处理各种复杂的任务（比如“帮我找到餐桌旁边的沙发”），因为它能理解自然语言指令，并据此调整视角。

5. 实验结果：效果惊人

研究人员在三个任务上测试了这种方法：

视觉定位（指出物体在哪）：提升了 13.54%。
图像分割（把物体轮廓画出来）：提升了 15.92%。
3D 盒子估计（判断物体的大小和位置）：提升了 27.68%。

总结来说：
Sea2 就像是一个聪明的导游。它不重新教游客（AI 模型）认识世界，而是通过不断调整游客的站位和视角，让他们在陌生的环境里也能看得清清楚楚。这种方法既省钱（不需要标注数据），又高效（不需要重新训练模型），是未来机器人适应新环境的一把利器。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：See, Act, Adapt (Sea2)

1. 研究背景与问题定义

核心问题： 预训练的视觉感知模型（如检测、分割、3D 定位模型）在通用互联网图像上表现优异，但在部署到新的具身环境（如室内场景）时，由于视角分布、遮挡模式和空间语义的域差异（Domain Gap），性能会显著下降。

现有方法的局限性：

微调（Fine-tuning）： 传统做法是在下游数据上微调感知模型，但这会导致灾难性遗忘（Catastrophic Forgetting），即丢失预训练知识。
标注成本： 微调需要昂贵的场景特定标注（如像素级掩码、3D 边界框、指代表达式），在开放世界中难以获取。
现有主动感知： 大多将探索与特定模型耦合，或需要收集标注数据重新训练，缺乏通用性。

核心假设： 感知性能的下降不仅源于模型能力不足，更源于次优的观测视角。通过智能控制智能体（Agent）的位姿以获取信息量最大的视角，可以在不修改感知模型本身的情况下恢复性能。

2. 方法论：Sea2 (See, Act, Adapt)

Sea2 提出了一种范式转变：不调整感知模块，而是调整感知模块的部署方式。该方法利用一个基于视觉 - 语言模型（VLM）的智能体作为低层位姿控制器，通过无监督学习导航至最佳视角。

2.1 核心架构

冻结感知模块： 所有感知模块（视觉 grounding、分割、3D 框估计）在训练和推理过程中保持完全冻结，不进行任何参数更新。
VLM 作为策略网络： 将 VLM 转化为具身智能体的动作策略 $\pi_\theta$ $π_{θ}$ 。
- 输入： 任务指令 $I$ （自然语言）+ 当前观测 $o_t$ （RGB 图像）。
- 输出： 结构化输出，包含：
  1. Thoughts： 空间推理过程（如物体位置、遮挡评估）。
  2. Task Type： 路由选择，决定使用哪个感知模块。
  3. Task Prompt： 为选定模块生成的具体语言描述。
  4. Action： 离散的位姿控制命令（如前进、转向、俯视/仰视）。

2.2 两阶段训练流程

为了将 VLM 从被动的推理模型转化为主动的位姿控制器，论文设计了两个阶段：

第一阶段：监督微调 (SFT)

目的： 初始化 VLM 的空间推理能力，减少后续强化学习的探索方差。
数据： 使用基于启发式规则（Heuristic）生成的轨迹数据。规则包括：
1. 搜索： 旋转直到目标被检测到。
2. 居中： 调整视角使目标位于图像中心。
3. 靠近/停止： 移动直到目标占据足够图像区域。
效果： 让 VLM 学习基本的具身控制格式和空间逻辑。

第二阶段：无监督强化学习 (RL)

算法： 采用 GRPO (Group Relative Policy Optimization)。
奖励机制 (Reward)： 完全基于冻结感知模块的输出构建，无需任何下游标注。
- 格式奖励 ( $r_f$ )： 确保输出结构正确（Thoughts, Action 等字段）。
- 置信度奖励 ( $r_c$ )： 感知模块输出置信度的变化量 ( $c_t - c_{t-1}$ )，鼓励智能体寻找更确定的视角。
- 几何奖励 ( $r_g$ )： 包含面积奖励（预测区域在图像中的占比）和中心奖励（预测区域与图像中心的对齐度）。
- 总奖励： $r = r_f + \lambda_1 r_c + \lambda_2 r_g$ （若任务类型识别错误则给予惩罚）。
优势： 实现了感知与控制解耦，使得该策略可以无缝适配不同的感知架构。

3. 关键贡献

首个基于 VLM 的即插即用主动感知框架： 仅利用标量输出作为奖励，实现了与多种现成感知模型的无缝集成，无需重新训练或下游标注。
基于感知推导奖励的无监督 RL 训练流水线： 利用任务级目标和冻结模型的标量输出，消除了对密集感知标注（如像素掩码、3D 框）的依赖，适用于标注稀缺的开放世界环境。
验证了视角适应的有效性： 证明了仅通过智能控制视角（Viewpoint Adaptation），即可有效弥补域差异带来的性能下降，无需触碰模型参数。

4. 实验结果

实验在 ReplicaCAD 和 HM3D 数据集上进行，涵盖了三个视觉任务：视觉 Grounding、分割、3D 边界框估计。

主要性能提升 (ReplicaCAD 数据集)：

相较于预训练感知模块（PPM）基线，Sea2 策略带来了显著的性能提升：

视觉 Grounding (Visual Grounding): mAP 提升 13.54%。
分割 (Segmentation): IoU 提升 15.92%，Dice 系数提升 13.59%。
3D 边界框估计 (3D Box Estimation): IoU 提升 27.68%，中心分数提升 25.35%。

对比分析：

优于简单策略： 相比“仅前进”、“随机移动”或“启发式规则”，Sea2 性能显著更高。启发式方法因缺乏对初始误检的恢复能力，性能提升有限。
优于直接 Prompting： 直接对 VLM 进行 Prompt 而不经过两阶段训练，性能甚至低于静态初始值，证明了具身对齐和奖励驱动微调的必要性。
优于最短路径 (Shortest Path)： 即使拥有目标真实坐标的最短路径策略，其性能提升也有限，说明仅仅“到达”目标位置不足以获得高质量感知，视角的优化才是关键。

5. 意义与影响

解决域适应难题： 提供了一种无需标注、无灾难性遗忘的域适应新范式。
具身 AI 的新方向： 展示了通过“主动感知”（Active Perception）来弥补模型在特定场景下能力不足的可能性，即“与其改变模型，不如改变看世界的方式”。
通用性与扩展性： 由于感知模块被冻结且策略仅依赖标量反馈，该方法具有极强的通用性，可轻松迁移到新的感知任务或模型架构中，为开放世界具身智能的部署提供了高效、低成本的解决方案。

总结： Sea2 通过“看（See）、做（Act）、适应（Adapt）”的闭环，利用 VLM 的智能推理能力结合无监督强化学习，成功让智能体学会主动寻找最佳视角，从而在不修改预训练模型的前提下，显著提升了其在复杂室内环境中的感知能力。

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent