Learning, locomotion, and navigation of soft synthetic snakes in… — 通俗解释

原作者： Xiaotian Zhang, Ali Albazroun, Tixian Wang, Songyuan Cui, Prashant G. Mehta, Mattia Gazzola

发布于 2026-05-26

📖 1 分钟阅读☕ 轻松阅读

原作者： Xiaotian Zhang, Ali Albazroun, Tixian Wang, Songyuan Cui, Prashant G. Mehta, Mattia Gazzola

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，试图教一条机器蛇在布满岩石、沙土和凹凸不平的杂乱真实后院中蜿蜒穿行。现在，再想象一下，这条机器人并没有一个装满复杂数学方程的“大脑”来指挥每一块肌肉。相反，它拥有一种“智能本能”，使其能够在行进中自行摸索。

本文正是描述了这一点：一种通过结合仿生技巧与计算机学习，教导柔软无肢机器蛇如何在复杂三维环境中导航的新方法。

以下是他们如何做到的分解说明，使用了简单的类比：

1. 问题所在：肌肉太多，过于混乱

真正的蛇令人惊叹。它们能挤过裂缝、攀爬岩石，并在没有腿的情况下滑过沙地。但制造机器蛇很难，因为它的身体就像一根长长的、可弯曲的面条，拥有无限种弯曲方式。如果你试图用计算机控制这根面条的每一英寸，数学计算会变得如此复杂，以至于机器人会陷入停滞。

研究人员希望通过赋予机器人一个“简化的大脑”来解决这个问题，让它从经验中学习，而不是试图完美地计算每一个动作。

2. “肌肉记忆”技巧（驱动）

团队没有编程让机器人控制每一块肌肉，而是给它预设了一套舞蹈动作。

类比：将蛇的运动想象成沿着绳子传播的波浪。研究人员为机器人编程了一套简单的“双波”舞蹈：一个波浪左右移动（像蛇蜿蜒爬行），另一个波浪上下移动（抬起身体）。
神奇之处：只需微调两个旋钮——蛇抬升的高度和波浪的时机——机器人就能改变其整体行为。它可以左转、右转、直行，甚至跳起“侧行舞”（像沙漠蛇一样横向移动）。这将一个复杂的问题变成了一个只需调整两个旋钮的简单游戏。

3. “第六感”（感知）

机器人需要知道它走在什么上面。是滑腻的沙地？还是粗糙的草地？

类比：研究人员赋予机器人一种基于鱼群或鸟群协同移动方式的“感觉”系统。他们使用了一组虚拟的“振荡器”（像微小的同步节拍器），这些振荡器监听作用在蛇腹部的力。
工作原理：当蛇碰到粗糙地面时，节拍器会同步起来，向大脑报告：“嘿，我们在崎岖的地形上！”当它碰到平滑的沙地时，它们的同步方式则不同。这让机器人无需昂贵的摄像头或激光，就能实时感知其环境。

4. 学习过程（强化学习）

团队没有为机器人编写操作手册。相反，他们让机器人通过试错来学习，就像小狗学习接飞盘一样。

第一阶段：沙盒：首先，他们让蛇在平坦、简单的地板上练习（有些粗糙，有些平滑）。机器人尝试了数百万种不同的动作，接近目标会获得“积分”，陷入困境则会“扣分”。最终，它学会了两种完美的“舞步”：一种用于粗糙地面，一种用于平滑沙地。
第二阶段：切换：然后，他们将机器人置于混合环境（一半粗糙，一半平滑）。他们没有重新训练整个机器人，而是给它定了一条简单的规则：“如果你的传感器感觉到粗糙，就使用粗糙地面的舞步；如果感觉到平滑，就使用平滑地面的舞步。”
结果：机器人成功地在行进中切换舞步，像真正的蛇一样穿越了混合地形。

5. “抬头”超能力

最后，他们在真正杂乱的三维世界中测试了机器人，那里有山丘、裂缝和悬崖（根据火星和其他地形的真实照片重建）。

挑战：有时，机器人会被困住，因为一个凸起抬起了它的腹部，导致它失去抓地力。
解决方案：他们在机器人的大脑中增加了一个“紧急按钮”。如果传感器感觉到机器人正在失去与地面的接触，它会自动将头抬得更高。
类比：想象你在岩石小径上行走并差点绊倒；你会本能地抬脚更高以越过下一块岩石。机器人也是如此。通过抬头，它缩短了接触地面的身体部分，这实际上帮助它抓得更牢，转弯更急。

核心结论

研究人员构建了一个系统，使柔软的机器蛇能够：

学习在平坦地面上的简单运动模式。
感知它所在的地面类型，使用一种“集体感觉”系统。
切换不同的运动风格，当地面变化时瞬间完成。
适应，当地形变得崎岖时抬起头部。

结果是一个能够高可靠性地穿越复杂、真实世界三维景观的机器人，证明了要在杂乱的世界中移动，你并不需要超级复杂的大脑——你只需要正确的本能和一点点学习。

技术摘要：软体合成蛇在三维非均质环境中的学习、运动与导航

问题陈述
无肢陆生动物（如蛇）在非结构化、非均质的三维地形中表现出卓越的移动灵活性，这一能力目前尚未被工程软体机器人所匹敌。在人工系统中实现这一潜力受到软体细长身体固有的高自由度（高 DOF）、强非线性和复杂接触交互的阻碍。传统的基于模型的控制在这些环境中难以处理，而无需模型的强化学习（RL）方法则常受限于可扩展性问题和高计算成本，使其部署局限于简化的场景。本研究致力于解决使软体合成蛇能够在无需针对每个新环境进行大量重新训练的情况下，导航复杂现实三维地形的挑战。

方法论
作者提出了一种混合计算框架，将基于连续体的数值模型与仿生强化学习架构相结合。该方法包含四个核心组件：

连续体动力学建模：蛇的身体采用柯西杆（Cosserat rod）理论进行建模，捕捉包括拉伸、弯曲、扭转和剪切在内的三维动力学。仿真利用开源软件 Elastica 实现，并实例化了玉米蛇（Pantherophis guttatus）的几何和生物力学特性。环境由从现实成像数据（例如火星地貌）重建的高保真三维地形表示，通过 OBJ 网格格式导入。采用包含各向异性库仑摩擦和地面反作用力的接触模型来模拟与不同基底的交互。
仿生驱动（运动原语）：为了降低高自由度系统的控制复杂度，作者采用了一个紧凑的刻板驱动模板库。具体而言，使用“双波”肌肉激活模型，由固定的侧向波动波和可调节的垂直提升波组成。控制动作空间被简化为两个可调参数：垂直波的非维度激活比率（ $A$ ）和相位偏移（ $\Phi$ ）。这种方法利用了物理智能，即利用被动身体力学和地形交互来减轻神经肌肉控制的负担。
神经元启发的感知：通过耦合振荡器反馈粒子滤波器（FPF）实现鲁棒的状态估计。两组独立的振荡器部署在蛇的中段，用于估计局部地面接触力在侧向（ $F_l$ ）和垂直（ $F_v$ ）方向的分量。这些振荡器模仿生物神经回路，过滤噪声感官输入，提供周期平均力幅值（ $H_1, H_2$ ）。这些信号作为强化学习代理的环境状态输入，实现了本体感知和环境感知。
强化学习与策略适应：控制目标被表述为一个优化问题，旨在最大化向目标位置的进展。使用近端策略优化（PPO）算法来学习控制策略。
- 训练阶段：策略首先在简化的均质环境（纯各向异性或各向同性摩擦）中进行训练，以学习运动原语（例如，向前滑行与侧向蜿蜒）。
- 适应阶段：对于非均质地形，该框架采用策略切换机制。蛇根据实时感官反馈（ $H_1$ ）动态地在已学习的均质策略之间进行选择，以识别局部摩擦机制。
- 细化：为了处理三维地形特征（如凸起、悬崖），引入了轻量级的策略适应而无需重新训练。这些包括针对各向异性策略的“抬头”机制（用于导航凸起）和针对各向同性策略的“提升放大”机制（用于克服高度差），两者均由特定的感官阈值触发。

关键结果

均质导航：在 6L × 6L 域内的各向异性和各向同性平坦表面上，学习到的策略在到达目标方面实现了近 100% 的成功率。该系统成功学会了根据摩擦特性在步态（滑行与侧向蜿蜒）之间转换。
非均质平坦表面：在具有混合摩擦区域的地形中，策略切换方法实现了 86.2% 的成功率，优于在相同非均质地形上从头训练的策略（81.1%）。切换机制被证明更加鲁棒且可扩展，避免了在新环境中重新训练的需求。
三维复杂地形：当部署在具有不规则性（凸起、裂缝）和显著高程变化（高达蛇半径的 30 倍）的现实网格化地形上时，基础策略的成功率仅为 20.8%。然而，通过整合仿生策略适应（抬头和提升放大），在具有凸起的平坦各向异性地形上，成功率提高到了 88.1%。
复杂三维环境：在结合砾石（各向异性）和沙子（各向同性）并带有陡峭悬崖的高度非均质环境中，集成策略（策略切换 + 适应）使得蛇在 55.7% 的试验中能够接近目标 1L 范围内。虽然由于地形界面处步态转换的极端复杂性，完全可达性仍然有限（约 30%），但该系统展示了穿越多样化地形和基底类型的能力。

意义与主张
该论文声称提供了一个物理真实的仿真平台，并为控制自然地形中的连续体系统提供了实用见解。其主要意义在于证明模块化、仿生控制策略——结合紧凑的驱动模板、鲁棒的感官反馈和轻量级策略切换——可以使软体机器人在无需大量重新训练的情况下，泛化到多样且复杂的三维环境中。

作者强调，他们的方法利用了“物理智能”，即刻意利用机器人的被动力学和环境介导的交互来简化控制。该框架为无肢运动建立了一个计算高效的基线，为软体蜿蜒机器人在国防、探索、检查和医疗等领域的现实世界部署提供了一条途径。该工作承认，虽然当前的框架依赖于在简化环境中的学习，但它提供了一个模块化的基础，可以容纳未来特定任务的运动原语（例如用于攀爬或锚定），以进一步增强在高度多变的三维地形中的性能。

Learning, locomotion, and navigation of soft synthetic snakes in three-dimensional, heterogeneous environments