Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Bi-AQUA 的新技术，它让水下机器人的机械臂变得更聪明、更灵活，就像给机器人装上了一副“超级眼镜”和一双“有感觉的手”。

为了让你轻松理解，我们可以把这项技术想象成教一个潜水员在浑浊、光线变幻莫测的海底干活。

1. 核心难题：海底的“视觉迷宫”

想象一下，你戴着潜水镜在水下工作。

光线乱变：阳光穿过水面会散射，水里的颜色会失真（比如红色光传不远，看起来全是蓝的），甚至会有气泡或浑浊物挡住视线。
传统机器人的困境：普通的机器人就像是一个只靠眼睛看的盲人。如果光线变了，它看到的物体颜色、形状全变了，它就会“晕头转向”，不知道手该往哪伸，或者用力多大。它要么抓不住东西，要么把东西弄坏。

2. Bi-AQUA 的三大绝招

为了解决这个问题，研究团队给机器人设计了一套“三位一体”的超级系统：

第一招：给机器人装个“光线翻译官” (Lighting Encoder)

比喻：就像你戴了一副智能眼镜，这副眼镜不仅能看东西，还能实时分析周围的光线环境。
作用：不管水底是红色的、蓝色的，还是忽明忽暗的，这个“翻译官”能立刻告诉大脑：“嘿，现在光线偏红，物体看起来有点暗，我们要调整一下判断。”它不需要人工教它什么是红光什么是蓝光，它是自己从画面里“悟”出来的。

第二招：给大脑装个“动态滤镜” (FiLM Modulation)

比喻：想象你在看手机照片，光线不好时，你会用滤镜把照片调亮、调准颜色。Bi-AQUA 给机器人的视觉系统装了一个自动调节的滤镜。
作用：当“光线翻译官”发现环境变了，它立刻指挥这个滤镜：“现在光线太蓝了，把视觉信号里的蓝色调少一点，把红色补回来。”这样，无论水底光线怎么变，机器人看到的物体原本的样子（比如那个红色的积木）始终清晰可见。

第三招：给大脑装个“光线记忆条” (Lighting Token)

比喻：这就像在机器人的“操作说明书”里，专门加了一行关于当前光线的备注。
作用：当机器人决定下一步动作时，它不仅看物体，还会看一眼这个“备注”：“哦，现在是动态变化的光线，动作要更谨慎一点。”这让机器人能根据光线情况，灵活调整自己的动作计划。

3. 为什么还要用“双边控制”？(Bilateral Control)

除了眼睛（视觉），Bi-AQUA 还有一个关键特点：它有一双“有感觉的手”。

比喻：普通的机器人是“单线联系”，只有大脑发指令，手去执行。如果手碰到了东西，它感觉不到，容易用力过猛把东西捏碎。
Bi-AQUA 的做法：它像两个人配合（一个在水面上操作，一个在水下执行）。水面上的人能感觉到水下机械臂碰到了什么阻力，并把这些“触感”实时反馈给操作者。
结果：这让机器人拥有了触觉。在抓一个滑溜溜的、或者需要轻轻拔出来的东西（比如拔钉子）时，它能像人一样“感觉”到阻力，从而调整力度，不会硬来。

4. 实验效果：它有多强？

研究人员在真实的水箱里做了很多测试，比如：

搬运积木：在红光、蓝光、甚至光线不断闪烁变化的环境下，其他机器人早就抓瞎了，Bi-AQUA 依然能稳稳地把东西从 A 点搬到 B 点。
关抽屉：这是一个需要长时间、多步骤的任务。Bi-AQUA 能像人一样，先拿东西，再慢慢把抽屉推上，即使光线变了也不出错。
拔钉子：这是最难的任务，需要非常精细的触觉和视觉配合。没有“有感觉的手”的机器人根本拔不出来，但 Bi-AQUA 成功率极高。

总结

简单来说，Bi-AQUA 就是给水下机器人做了一次“超级升级”：

眼睛更亮：能自动适应水下千变万化的光线，不再被颜色欺骗。
手感更好：能像人一样通过触觉感知阻力，动作更精准。
脑子更活：把光线信息和触觉信息结合起来，让它能在复杂的水下环境中，像熟练的潜水员一样自如地工作。

这项技术让水下机器人不再只是“瞎子”或“莽夫”，而是变成了能真正帮人类在海底干活的智能助手。

Each language version is independently generated for its own context, not a direct translation.

Bi-AQUA 技术总结：基于双边控制与光照感知动作分块的 underwater 机器人模仿学习框架

1. 研究背景与问题定义 (Problem)

水下机器人操作面临巨大的挑战，主要源于水下环境光照的剧烈变化。

核心痛点：水下光照的波长依赖性衰减、散射、浑浊度以及气泡会导致场景外观在几秒钟内发生剧烈变化。这种视觉不一致性会严重破坏传统的视觉运动策略（Visuomotor Policies），导致动作漂移（Action Drift）。
现有局限：
- 现有的水下图像增强方法主要关注提升感知质量，而非闭环控制性能。
- 现有的模仿学习（IL）系统（如 ALOHA、ACT）多基于单边控制（Unilateral Control），缺乏力反馈，难以处理接触丰富（Contact-rich）或视觉模糊的任务。
- 现有的双边控制（Bilateral Control）模仿学习框架（如 Bi-ACT）主要假设陆地环境光照稳定，未将光照变化作为潜在因子显式建模到策略中。
研究缺口：目前缺乏一个既能利用双边控制的力觉优势，又能显式建模水下光照变化的水下机器人模仿学习框架。

2. 方法论 (Methodology)

论文提出了 Bi-AQUA，这是首个基于双边控制的水下机器人臂模仿学习框架。其核心思想是在视觉运动策略中显式地建模光照，同时保留双边控制的力觉优势。

2.1 系统架构

Bi-AQUA 基于 Bi-ACT（基于 Transformer 的双边动作分块）架构，并引入了分层光照感知机制，包含三个关键组件：

无标签光照编码器 (Label-free Lighting Encoder)：
- 功能：从 RGB 图像中提取紧凑的光照嵌入向量（Lighting Embedding），无需人工光照标注。
- 设计：采用双路径架构。
  - 卷积路径：通过卷积层提取空间光照线索。
  - 直方图路径：计算饱和度（Saturation）和亮度（Value）通道的 2D 直方图，通过 MLP 建模光照统计特性。
- 输出：将多视角的光照嵌入平均融合，生成全局光照表示 $v_L$ 。
基于 FiLM 的视觉特征调制 (FiLM-based Visual Feature Modulation)：
- 功能：利用光照嵌入 $v_L$ 对骨干网络（Backbone）的视觉特征进行逐通道仿射变换（缩放 $\gamma$ 和偏移 $\beta$ ）。
- 作用：使视觉特征提取过程能够适应当前的光照条件，实现“光照感知”的感知层。
光照 Token (Lighting Token)：
- 功能：将光照嵌入作为特殊的 Token 直接添加到 Transformer 编码器的输入序列中。
- 作用：在序列级别（Sequence-level）为动作生成提供条件，使解码器能够根据当前光照调整动作预测。

2.2 数据收集与训练

双边遥操作：操作员在空气中控制主机器人（Leader），从机器人（Follower）在水下执行镜像运动。
控制律：遵循 $\theta_l - \theta_f = 0$ （位置跟踪）和 $\tau_l + \tau_f = 0$ （力反馈）的双边控制协议，无需专用力传感器，通过扰动观测器（DOB）估算力矩。
训练目标：采用条件变分自编码器（CVAE）风格的策略，结合行为克隆（Behavior Cloning）。损失函数包含动作预测误差（ $L_{action}$ ）和潜在分布的 KL 散度（ $D_{KL}$ ）。光照编码器、FiLM 层和 Transformer 模块联合端到端优化。

3. 主要贡献 (Key Contributions)

首创框架：提出了首个针对水下机器人臂的**双边控制模仿学习（Bi-IL）**框架。
光照感知策略：设计了一种新颖的视觉运动策略，集成了无标签光照编码器、FiLM 特征调制和光照 Token，实现了从感知到控制的全流程光照自适应。
实证验证：在真实水下环境中验证了该方法，证明了其在未见光照、动态变化光照以及接触丰富任务中的鲁棒性，显著优于无光照建模的基线。

4. 实验结果 (Results)

实验在真实水下水箱环境中进行，包含三个任务：抓取放置（Pick-and-Place）、抽屉关闭（Drawer Closing）和销钉提取（Peg Extraction）。

光照鲁棒性（Pick-and-Place 任务）：
- Bi-AQUA：在 8 种光照模式（包括 2 种未见颜色：青色、紫色，以及动态变色模式）下，成功率高达 80%-100%。特别是在动态变色（每 2 秒切换）条件下仍保持 100% 成功。
- 基线 (Bi-ACT)：仅在白色光照下表现良好（100%），在其他光照（尤其是蓝色和动态变化）下几乎完全失败（0%-20%）。
- 消融实验：仅使用光照 Token 或仅使用 FiLM 均无法达到完整模型的效果，证明了分层光照适应（感知层 + 控制层）的必要性。
泛化能力：
- 在未见物体（黑色橡胶块、蓝色海绵）和视觉干扰（气泡）下，Bi-AQUA 仍能保持较高的成功率，表明其未过拟合训练物体。
接触丰富任务（Drawer & Peg Extraction）：
- 在长时程（抽屉关闭）和高精度接触（销钉提取）任务中，力反馈至关重要。
- 移除力反馈的变体在接触任务中成功率大幅下降（例如销钉提取在红色/紫色/动态光下为 0%），而完整的 Bi-AQUA 在几乎所有光照条件下均保持 80%-100% 的成功率。
- 执行时间分析显示，Bi-AQUA 的执行效率（15.73s）与人类遥操作（15.39s）相当，优于基线方法。

5. 意义与结论 (Significance)

理论意义：填补了水下双边控制模仿学习与显式光照建模之间的空白。证明了将光照作为潜在变量显式整合到策略中，比单纯依赖图像增强或数据增强更有效。
实践价值：Bi-AQUA 为水下自主操作提供了一条可靠路径，特别是在光照条件复杂多变、需要精细力控的长时程任务中。
未来展望：该工作表明，结合力觉反馈（Bilateral Control）与显式环境感知建模（Lighting Modeling）是实现高鲁棒性水下机器人自主操作的关键方向。

总结：Bi-AQUA 通过创新性地引入光照感知模块到双边控制框架中，成功解决了水下视觉运动策略对光照变化敏感的问题，实现了在复杂、动态水下环境中的高精度、高鲁棒性自主操作。

Bi-AQUA: Bilateral Control-Based Imitation Learning for Underwater Robot Arms via Lighting-Aware Action Chunking with Transformers