想象一下，一群由 16 只微型隐形机器鱼组成的小鱼群，正试图在人类的动脉中逆流而上。但这里有个陷阱：血液并非像河流那样平稳流动，而是像心脏跳动一样脉动——快速向前冲，然后减速，接着短暂地反向流动，如此循环往复。

本文描述了研究人员如何教导这些微型机器人在这种混乱的脉动水流中游动，既不被冲走，也不浪费能量，更不会出现不受控制的剧烈抖动。他们使用了一种名为“多目标多智能体强化学习”的“智能导师”系统来实现这一目标。

以下是他们旅程的分解，通过简单的类比进行解释：

1. 问题：“扇贝”陷阱

在这些机器人的微观尺度下，水感觉又厚又粘，就像蜂蜜一样。如果机器人试图通过开合它的“外壳”（像扇贝一样）来游泳，它将寸步难行，因为水向后推它的力度与向前推它的力度完全相同。这被称为“扇贝定理”。

为了移动，它们需要以特定的、非重复的方式扭动或旋转。但当河流（血液）本身在前后涌动时，要找出正确的动作变得极其困难。如果它们只是拼命逆流而上，反向流动可能会将它们猛撞在血管壁上。如果它们试图躲藏，向前的急流可能会将它们直接冲过终点线。

2. 解决方案：三位一体的教练

研究人员并没有简单地告诉机器人“逆流而上！”，而是给它们配备了一位拥有三个通常相互冲突的目标（对象）的教练：

目标 A（进度）： “到达终点线！”
目标 B（能量）： “不要浪费你的电池！”
目标 C（平滑度）： “不要剧烈抖动；优雅地移动。”

通常，试图同时完成这三件事会让机器人感到困惑。如果它们为了取得进展而猛冲，就会浪费能量并移动得剧烈抖动。如果它们移动得平滑，可能就无法取得足够的进展。

3. 秘诀：“梯度手术”（PCGrad）

这是本文最关键的发现。研究人员发现，如果没有一种名为**PCGrad（投影冲突梯度）**的特殊工具，机器人的“大脑”就会陷入混乱。

想象一辆有三个司机争夺方向盘的汽车：

司机 A 大喊：“向左转！”（进度）
司机 B 大喊：“向右转！”（能量）
司机 C 大喊：“别转！”（平滑度）

如果没有进行“手术”，汽车就会原地打转或熄火。“手术”是一种数学技巧，它将相互冲突的指令中互相抵触的部分切除，只保留能够协同工作的部分。这就像一位裁判在说：“司机 A，你可以向左转，但前提是不能破坏司机 B 的燃油计划。”

本文证明，如果没有这种“手术”，机器人将彻底失败。 它们的能量效率降至零，即使仍在尝试游泳，也无法平滑移动。

4. 机器人学到了什么（“顿悟”时刻）

研究人员并没有告诉机器人如何游泳；它们只是通过试错来学习。令人惊讶的是，它们发明了三种研究人员未曾编程的巧妙策略：

“交通堵塞”技巧（第一阶段）： 当血液像海啸一样高速向前涌动时，机器人并不与之对抗。相反，一半的机器人紧贴底部血管壁，另一半则堆叠在它们上面。它们在管道中形成一个两层的“堤坝”。这减缓了它们紧邻处的水流速度，防止急流将它们冲走。它们让水流以可控的方式轻轻将它们推向下游，而不是被冲走。
“棘轮”动作（第二阶段）： 当血流逆转（向后流动）时，机器人打破队形，散开，并利用这股反向流动。它们逆着向后的水流向上游动，实际上将自己“棘轮”式地推向目标。这就像一名攀岩者，先向下滑一点以获得更好的抓地力，然后爬得更高。
“单人冲刺”（第三阶段）： 一旦接近终点线，它们就不再作为团队行动。它们散开并 individually 游向终点。团队队形只是为了在河流中危险的中间部分生存下来。

5. 结果

机器人学会了：

成功逆流而上（进度得分：6.5–7.0）。
节省能量（效率得分：0.63–0.65）。
平滑移动（平滑度得分：0.97–0.99）。

相比之下，试图只是“猛冲”（蛮力法）的机器人要么被困住，要么浪费了所有能量，要么撞到了血管壁。

总结

本文表明，通过使用带有“冲突解决”工具（PCGrad）的智能学习系统，一群微型机器人可以学会在跳动心脏的血液流动中导航。它们学会了像团队一样行动以减缓水流，然后像个体一样行动以逆流而上，同时节省能量。关键要点是：如果没有一种特殊的方法来阻止不同目标之间的相互争斗，你就无法教会机器人同时做多件复杂的事情。

技术摘要：基于多目标多智能体强化学习的动态流场中微群运动优化

问题陈述

在生理真实、随时间变化的流体环境中协调微机器人集群，仍是生物医学和环境应用领域的重大挑战。在微观尺度下，粘性力主导惯性效应，使得互易性驱动失效（Purcell 的“扇贝定理”）。此外，在振荡流（如搏动性动脉血流或泵驱动的管道循环）中，微游泳者面临周期性剪切梯度、流向逆转和瞬态边界层，这些因素可能将其困在回流区或迫使其撞击壁面。

现有的控制范式通常依赖全局驱动结合模型预测控制（MPC），或去中心化的生物启发式启发法。然而，这些方法难以应对高保真流体模拟的计算成本、振荡流场的非平稳性，以及在不进行智能体间显式通信的情况下平衡竞争目标（例如：逆流前进与能量守恒）的困难。关键在于，此前尚无研究将多目标多智能体强化学习（MO-MARL）与高保真、随时间变化的计算流体动力学（CFD）相结合，以解决此类动态机制下的集群运动问题。

方法论

作者提出了一种混合CFD-MO-MARL 框架，该框架直接将高保真不可压缩纳维 - 斯托克斯求解器与去中心化多智能体强化学习耦合。

物理设置与模拟

计算域：一个宽 2 毫米、长 100 毫米的二维通道，填充模拟血液流体（ $\rho = 1060$ kg/m³, $\mu = 3 \times 10^{-3}$ Pa·s）。
流场剖面：三相动脉波形（1 Hz 周期），包含收缩期峰值 400 mm/s、早期舒张期逆流（-15 mm/s）和晚期舒张期正向流（8 mm/s）。
集群：16 个磁驱动微机器人（建模为半径 $r=250$ µm 的球体），呈网格排列。它们受到流体动力、阻力、内部推进力（受物理磁驱动极限约束）以及接触力的作用。
求解器：模拟采用 PhiFlow 框架，在半拉格朗日平流方案和基于投影的压力修正下，在均匀笛卡尔网格（ $\Delta x = 0.1$ mm）上运行。

强化学习框架

控制问题被表述为多智能体多目标马尔可夫决策过程（MA-MOMDP），采用**集中训练、分散执行（CTDE）**范式，并使用近端策略优化（PPO）。

状态空间：每个智能体观测局部笛卡尔坐标、速度分量以及其圆周周围的四个压力样本。评论家（Critic）利用所有智能体的联合状态。
动作空间：每个智能体输出连续的二维推进力矢量。
多目标奖励：系统优化三个并发目标：
1. 进展：逆流方向的位移。
2. 能量效率：瞬时做功与最大可能做功之比。
3. 平滑度：驱动的时间一致性（连续动作间的余弦相似度）。
梯度冲突解决：为了解决目标之间的结构性冲突，作者采用了**投影冲突梯度（PCGrad）**技术。该技术将冲突的梯度分量投影到正交子空间中，防止主导的进展目标对能量和平滑度目标产生破坏性干扰。

主要贡献

CFD-MO-MARL 集成：本文提出了首个将高保真、随时间变化的纳维 - 斯托克斯求解器与去中心化多目标多智能体强化学习相结合用于微集群控制的框架。
梯度手术的必要性：研究表明，梯度冲突解决（PCGrad）是该领域的结构性要求，而非可选的优化手段。若无此机制，能量效率和平滑度奖励会崩溃至接近零，且进展表现会出现持续的不稳定性。
涌现行为策略：该框架在不显式编码奖励函数的情况下，发现了复杂且反直觉的集体行为，包括：
- 流体动力节流：一种双层队形，在正向流期间抑制通道峰值流速。
- 周期同步棘轮：一种利用流向逆转进行逆流重新定位的机制。
- 个性化最终接近：当智能体接近成功边界时，转变为独立导航。

结果

性能：收敛策略实现了6.5–7.0的进展奖励、0.63–0.65的能量效率以及0.97–0.99的平滑度。与产生负能量效率的蛮力基线相比，进展奖励提升了超过 8 个单位。
消融研究：移除 PCGrad 导致能量和平滑度奖励在 10,000 步内立即崩溃，且进展奖励出现持续的大幅振荡。这证实了在高保真流体环境中，简单的梯度求和无法调和竞争目标。
涌现行为：
- 阶段 1（正向流）：集群形成双层障碍，将局部流体速度从约 700 mm/s 降低至约 400 mm/s，允许在安全走廊内进行被动的顺流漂移。
- 阶段 2（逆向流）：集群分散并重新锚定在下壁附近以逆流前进，充当棘轮机制。
- 阶段 3（接近）：随着智能体接近目标，集体协调瓦解为个性化导航。

意义与主张

本文声称建立了一种可扩展且基于物理的微集群控制范式。通过在多目标强化学习循环中直接捕捉随时间变化的流体 - 智能体相互作用，该方法提供了一种学习控制策略的途径，既能尊重物理约束（不可压缩性、动量守恒），又能发现非直觉的解决方案。

作者断言，这项工作填补了将微机器人集群应用于动态、生理及工业环境的关键空白。结果表明，无需代理模型即可管理随时间变化的流体相互作用，这为受偏微分方程（PDE）动力学支配的控制领域提供了模板。研究结果被定位为适用于生物医学导航（例如搏动血管中的靶向药物递送）、环境监测和工业微流体。

研究结论指出，在目标具有异质梯度幅值的基于物理的 MO-MARL 系统中，梯度冲突解决对于稳定学习至关重要；且所发现的涌现行为代表了由耦合 CFD 环境的物理一致性驱动的真正策略发现。

Micro-Swarm Locomotion Optimization in Dynamic Flow using Multi-Objective Multi-Agent Reinforcement Learning