Optimum control strategies for maximum thrust production in underwater… — 通俗解释

原作者： L. fu, S. Israilov, J. Sanchez Rodriguez, C. Brouzet, G. Allibert, C. Raufaste, M. Argentina

发布于 2026-01-26

📖 1 分钟阅读☕ 轻松阅读

原作者： L. fu, S. Israilov, J. Sanchez Rodriguez, C. Brouzet, G. Allibert, C. Raufaste, M. Argentina

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正试图推着一辆沉重的购物车穿过拥挤的超市。你可以轻轻地、平稳地推动它，也可以猛地用力推一下，等它减速，然后再猛推一下。这篇论文探讨了对于一只试图在水中游得尽可能快的机器人鱼来说，哪种方法才是最好的。

以下是他们发现的过程，通过简单的概念进行了拆解：

问题所在：如何像鱼一样游泳

真实的鱼、鲸鱼和蝌蚪通过身体前后摆动来游泳。这种动作会产生一个推向水的波浪，从而推动它们前进。科学家们长期以来一直在思考：什么样的“摆动”才是最完美的？

是一种平滑、温柔的波浪（如正弦波）？还是锯齿状的三角形波？或者是别的什么？为了找出答案，研究人员制造了一个机器人鱼，并让计算机学习最佳的运动方式。

实验过程：用“强化学习”教导机器人

团队制造了一个尾部由软塑料制成的柔性尾部的机器人鱼。他们安装了一个电机，可以通过拉动缆绳来弯曲尾部，就像真实的肌肉拉动骨骼一样。

研究人员并没有用特定的规则（比如“以 2 赫兹的速度摆动”）来编写程序，而是使用了强化学习（Reinforcement Learning）。这就像训练狗一样：

机器人尝试不同的动作。
每当它对水产生更强的推力（产生更多“推力/Thrust”）时，计算机就会给它一个“奖励”。
每当它的运动效率低下时，它就得不到奖励。

随着时间的推移，计算机找到了能使奖励最大化的完美模式。

重大发现：“方波”

计算机发现的并不是一种平滑、温柔的波浪。相反，它发现最快的游泳方式是使用方波（Square Wave）。

类比： 想象你在游乐场玩秋千。

平滑的方式： 你以一种缓慢、有节奏的圆周运动，轻轻地前后推动秋千。
方波的方式： 你使出浑身解数把秋千推到最向后，在那里停留一瞬间，然后立即使出全力把它推向最前方。你始终在“全速前进”和“全速后退”之间切换，没有中间状态。

机器人发现，通过在电机的两个极端限位（最大左转和最大右转）之间进行切换，可以产生最大的推力。这就像是一个“砰-砰”（Bang-Bang）控制器：你不是在“砰”（全功率），就是在“砰”（向另一个方向全功率）。不存在“也许”或“可能”。

为什么这有效？

研究人员建立了一个数学模型来理解其中的原理。他们发现有两个主要原因：

电机的限制： 机器人的电机有一个最大速度。如果你要求它平滑移动，它会花费大量时间在加速和减速上。通过在两个极端之间瞬间切换，电机几乎所有的时间都处于最高转速运行状态。
水的节奏： 水和尾部之间存在一种自然的“共振”（就像秋千有其自然节奏一样）。方波完美地契合了这种节奏，使尾部能够保持尽可能快的运动，而不会因为对抗水的阻力而浪费能量。

“摆动策略”：无需数学知识

研究人员意识到，要使用完美的方波，你通常需要精确知道机器人的重量、尾部的硬度以及电机的转速。而在现实世界中，这些很难被准确获知。

因此，他们发明了一个聪明的、“无模型”（Model-free）的小技巧，称之为**“摆动控制”（Swinging Control）**。

类比： 想象一个不懂物理的孩子在荡秋千。他并不会计算完美的推动时机。相反，他只是等待秋千在弧顶减速时，然后再推动。

机器人也采取同样的做法。它观察尾部。
只要尾部还在快速运动，它就保持电机向一个方向旋转。
一旦尾部开始大幅减速，机器人会立即将电机切换到另一侧。

这种策略的效果几乎可以媲美完美的数学解，但它不需要任何关于机器人物理特性的先验知识。它只是对当下发生的情况做出反应。

最终证明

为了确保这不仅仅是针对特定机器人的偶然现象，他们在虚拟水箱中进行了一次大规模的计算机模拟，模拟一条鱼在水中游泳。他们测试了平滑波、锯齿波以及这种“切换”策略。

结果： “切换”策略（方波）始终让虚拟鱼比其他任何方法都游得更快。

总结

要在水下游得尽可能快，你不需要表现得平滑且温柔。你需要果断。在两个极端之间切换动力，并在你的速度开始下降的瞬间立即转换方向。这是一个简单而强大的规则，它架起了机器人运动方式与自然界游泳方式之间的桥梁。

技术摘要：最大化水下波动式游泳推力的最优控制策略

问题陈述
水下波动式游泳（常见于鱼类和鲸目动物）涉及内部动力学（肌肉收缩、决策）与外部流固耦合之间复杂的相互作用。虽然生物游泳者能够实现极高的效率，但在人工机器人系统中复制这一过程仍是一个挑战。具体而言，目前对于如何通过控制策略实现推力最大化，仍缺乏定论性的理解。以往的研究探索了速度与尾部摆动频率之间的相关性，但尚未明确指出实现最大推力所需的精确控制信号形状或其背机制，也未能在缺乏广泛先验系统知识的情况下确定该机制。

研究方法
作者采用了一种结合实验机器人学、机器学习、理论建模和数值模拟的多维度方法：

实验平台： 构建了一个具有可变形聚合物骨架和鳍部的仿生机器人鱼。通过连接电缆的防水伺服电机诱导身体变形。机器人的头部固定在力传感器上，用以测量纵向推力 ( $F_x$ )。
机器学习（强化学习 - RL）： 使用深度强化学习算法来识别使平均推力最大化的控制信号 ( $\phi_c(t)$ $ϕ_{c} (t)$ )。研究测试了两组输入集：
- 基于状态的输入：伺服电机指令角度、横向力 ( $F_y$ ) 及其导数。
- 基于视觉的输入：摄像机图像序列。
  RL 智能体被限制在 $[-\Phi, \Phi]$ 范围内改变指令角度。
理论建模： 开发了一个数学模型，结合了以下内容：
- 一个描述由伺服电机驱动的鳍部角度 ( $\alpha$ ) 动力学的阻尼谐振子方程。
- 一个描述伺服电机相对于指令角度的内部动力学（饱和效应）的非线性方程。
- 一个与鳍部角速度平方 ( $\dot{\alpha}^2$ ) 成正比的推力方程。
  该模型也通过 RL 进行了优化，以验证实验结果。
解析推导： 应用庞特里亚金极大值原理（Pontryagin's maximum principle）对模型进行分析，以解释在不同极限条件下（快速 vs 慢速伺服电机）特定控制策略的最优性。
数值模拟： 进行了完整的二维直接流固耦合 (FSI) 模拟，在真实的动态水环境中验证这些策略，并将游泳者建模为粘弹性梁。

核心结果

最优控制信号形状： 实验 RL 和理论建模均一致指向方波函数作为最优控制信号。指令角度在两个允许的极端值 ( $\pm \Phi$ ) 之间发生突变。这种“砰-砰”（bang-bang）控制在各种频率下均表现出优于正弦波和三角波的性能。
最优频率： 最大推力在特定的频率 ( $f^*$ $f^{*}$ ) 下实现，该频率取决于系统的内部动力学和指令振幅 ( $\Phi$ $Φ$ )。
- 对于快速伺服电机（电机能够追踪指令的情况），最优频率接近系统的自然波动频率 ( $f^* \approx \omega_0/2\pi$ )。
- 对于慢速伺服电机，最优频率由以最大角速度完成角度摆动所需的时间决定 ( $f^* = \Omega/4\Phi$ )。
无模型“摆动”策略： 作者提出了一种实用的无模型控制策略，称为“摆动控制”（swinging control）。该策略在鳍部角速度降至其最大观测值的特定比例 ( $C$ $C$ ) 时切换指令符号。
- 该方法不需要先验知识（质量、刚度、阻尼）。
- 当阈值 $C$ 设置为 0.6 时，在广泛的系统参数范围内，该策略能达到最大可能推力效率的 95% 以上。
验证： 二维 FSI 模拟证实了方波驱动产生的巡航速度最高。此外，“摆动”控制器在模拟中能够自动选择一个频率，使游泳者达到接近最大速度的推进水平。

意义与主张
本文声称通过提供一个统一的框架来理解并优化水下运动，从而架起了流体力学、机器人学和生物学之间的桥梁。其主要贡献包括：

确定了最优策略： 研究明确指出，方波（砰-砰）控制信号是产生最大推力最有效的方法，这是由电机饱和与外部流体共振之间的相互作用所驱动的。
实际应用价值： “摆动控制”策略的引入为自主机器人游泳者提供了一种鲁棒的、无模型的解决方案。它消除了对复杂系统辨识或物理方程先验知识的需求，使其非常适用于实际部署。
理论洞察： 本研究解释了该策略为何有效，将其与最大化尾部速度及系统的共振特性联系起来，并通过简化模型和复杂的数值模拟进行了验证。

作者总结道，这些发现为设计高效的人工游泳者提供了宝贵见解，并可能有助于提升人类水上运动员的性能，尽管他们将这些视为基于所得物理原理的潜在应用，而非即时的测试结果。

Optimum control strategies for maximum thrust production in underwater undulatory swimming