A robust and compliant robotic assembly control strategy for batch precision assembly task with uncertain fit types and fit amounts

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个关于机器人如何像“老手”一样，灵活地组装精密零件的研究。

想象一下，你正在玩一个非常精密的乐高积木游戏，或者是在组装手机镜头。这些零件（我们叫它“销”和“孔”）非常小，公差极小（误差只有头发丝的几十分之一）。

1. 遇到的难题：未知的“手感”

在工厂里，机器人要组装成千上万个这样的零件。理论上，它们应该严丝合缝。但实际上，因为机器加工总有误差，每个零件的“手感”都不一样：

有的太松（像穿大一号的袜子，晃晃悠悠）；
有的太紧（像穿小一号的鞋，硬挤进去）；
有的刚刚好（过渡配合）。

更麻烦的是，机器人在拿起零件之前，根本不知道手里拿的这个是“松”的还是“紧”的。如果机器人太“死板”，遇到太紧的零件就会硬怼，把零件弄坏；遇到太松的零件又可能插歪。

以前的机器人要么太笨（只会按固定程序走），要么太灵活但学得太慢（每次遇到新情况都要重新学）。

2. 解决方案：分而治之 + 集体智慧

为了解决这个问题，清华大学的团队想出了一个聪明的“三步走”策略，我们可以把它想象成培养一个全能冠军的过程：

第一步：拆解任务（分班教学）

既然不知道每个零件的具体松紧度，那就把可能的情况分成几类。

想象把零件按“松紧程度”分成四个班：
- A 班：特别紧（过盈配合）；
- B 班：稍微有点紧；
- C 班：稍微有点松；
- D 班：特别松（间隙配合）。
机器人先分别在这四个班里特训，学会每种情况下的“独门绝技”。

第二步：多任务强化学习（集体特训）

传统的做法是机器人一个班一个班地练，效率很低。

这篇论文的方法是让机器人同时在四个班里训练。
这就好比一个学生同时上四门课，他发现虽然课不一样，但“如何保持平衡”、“如何感知阻力”这些底层逻辑是相通的。
通过这种“集体特训”，机器人学得非常快（效率提高了 50% 以上），并且掌握了不同松紧度背后的共同规律。

第三步：策略蒸馏（融会贯通）

这时候，机器人手里有四套不同的“独门绝技”（四个老师）。如果直接让它用，它还得先判断“我现在是在 A 班还是 B 班”，这太慢了。

于是，研究人员设计了一个**“超级学生”**（学生网络）。
让这四个“老师”把它们的经验、动作和直觉，全部传授给这个“超级学生”。
这个“超级学生”不需要知道具体的松紧度，它只需要看眼前的力（摸起来紧不紧）和眼睛（看准不准），就能自动做出最合适的反应。它把四个老师的优点都融合了，变成了一个**“万能高手”**。

3. 核心黑科技：力与眼的融合

在这个训练过程中，机器人不仅仅靠“手”（力传感器），还靠“眼”（摄像头）。

力传感器：告诉机器人“这里有点卡住了”或者“这里太松了”。
摄像头：告诉机器人“零件歪了，得往左偏一点”。
以前的机器人可能只靠其中一种，或者参数是固定的。而这个系统让机器人自己调整“手”和“眼”的配合力度。就像老司机开车，遇到坑洼会自动调整方向盘和油门，而不是死板地按说明书操作。

4. 结果：真正的“老司机”

在真实的工厂实验里，这个“超级学生”表现惊人：

成功率极高：不管零件是松是紧，甚至是有轻微变形，它都能成功组装，成功率高达 98.5%。
温柔且高效：它组装时用的力非常小，不会把精密零件弄坏，而且动作很快。
通用性强：即使遇到训练时没见过的“特别紧”或“特别松”的零件，它也能凭直觉搞定。

总结

这就好比教一个机器人组装手机镜头。

旧方法：给机器人一本说明书，告诉它“如果是 A 型号就用力 5 牛，如果是 B 型号就用力 3 牛”。一旦遇到没写过的型号，机器人就懵了。
新方法：让机器人先分别练习“紧”、“松”、“适中”几种手感，然后把所有经验融合成一个**“直觉”。现在，无论给它什么零件，它都能像经验丰富的老工匠一样，凭手感（力觉）和凭眼力**（视觉）自动调整，温柔又精准地完成组装。

这项技术对于未来 3C 产品（手机、电脑等）的自动化生产非常重要，因为它能让机器人真正适应工业生产中那些不可避免的“小误差”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于机器人批量精密装配控制策略的学术论文详细技术总结。该研究针对工业生产中常见的“过渡配合”（Transition Fit）场景，即零件配合类型（间隙或过盈）和配合量（Fit Amount）存在不确定性的问题，提出了一种基于深度强化学习（DRL）的鲁棒且柔顺的控制方法。

以下是该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

应用场景：3C 产品（计算机、通信、消费电子）中的高精度批量装配任务，如手机镜头安装。
核心挑战：
- 配合不确定性：由于制造公差，同一批次的轴孔配合可能是间隙配合（Clearance Fit）或过盈配合（Interference Fit），且具体的配合量（Fit Amount）在装配前是未知的。
- 鲁棒性要求：不同的配合状态会导致接触动力学特性发生剧烈变化。传统的模型控制方法难以适应这种变化，而现有的强化学习方法通常针对特定形状或特定配合量训练，缺乏跨任务的泛化能力。
- 柔顺性要求：在过盈配合或微小间隙配合中，必须严格控制接触力，防止零件损坏。
现有局限：
- 基于模型的方法（如力控、视觉伺服）依赖精确建模，难以处理复杂形状和不确定性。
- 基于强化学习（RL）的方法通常针对单一任务训练，泛化性差；直接在大范围参数域随机化（Domain Randomization）训练效率低且难以收敛。

2. 方法论 (Methodology)

论文提出了一种名为 FVFC-MTRL-PD 的框架，包含三个核心阶段：任务分解、多任务强化学习训练、策略蒸馏。

2.1 任务分解 (Task Decomposition)

思路：将连续的、未知的配合量范围分解为多个确定的子任务（Subtasks）。
实施：根据配合量的物理范围（从大过盈到大间隙），将其线性划分为 $n$ 个子区间（例如 $T_1$ 到 $T_4$ ）。每个子任务对应一个确定的配合类型和配合量范围。
目的：避免直接在大范围随机化中训练，转而让智能体在多个确定性子任务中学习局部鲁棒性，再通过整合获得全局鲁棒性。

2.2 力 - 视融合控制器驱动的强化学习 (FVFC-driven RL)

底层控制器 (FVFC)：设计了一个力 - 视觉融合控制器作为 RL 的基础策略。
- 力控：利用六维力/力矩传感器，通过比例控制调整插入深度和姿态。
- 视觉：利用双相机提取特征（如边缘、角点），补偿吸盘变形引起的位姿误差，提供初始对准和防卡死能力。
- 作用：FVFC 保证了基本的装配柔顺性，RL 不直接输出机器人位姿，而是自适应调整 FVFC 的控制参数（如刚度系数、增益等）。
状态空间：融合了机器人本体感知、力特征和视觉特征。
奖励函数：综合考虑插入奖励、力和力矩惩罚、步数惩罚以及成功/失败的稀疏奖励。

2.3 多任务强化学习训练 (MTRL)

架构：采用多任务软演员 - 评论家算法（MTSAC）。
共享网络：Actor 和 Critic 网络在所有子任务间共享，但通过任务编码（Task Encoding）（One-hot 向量）区分不同子任务。
梯度处理：引入 PCGrad (Projecting Conflicting Gradients) 技术，解决不同子任务间的梯度冲突，稳定训练过程。
优势：利用子任务间的内在相关性，显著提高了样本效率（实验显示效率提升 50% 以上）。

2.4 多教师策略蒸馏 (Multi-Teacher Policy Distillation)

目标：将训练好的多个子任务策略（教师网络）整合为一个统一的、不依赖任务编码的学生网络。
过程：
1. 利用 MTRL 训练阶段收集的经验数据（Replay Buffers）。
2. 移除输入状态中的任务编码，仅保留感知状态（力、视觉、位姿）。
3. 使用教师网络生成的动作分布作为标签，通过监督学习（最小化 KL 散度）训练学生网络。
4. 学生网络采用更深层的 LSTM 模块，隐式地从装配轨迹中推断配合量。
结果：得到一个通用的鲁棒策略，能够处理训练集中未见的配合量。

3. 关键贡献 (Key Contributions)

提出了 FVFC-MTRL-PD 框架：一种针对批量精密装配中配合类型和配合量不确定性的鲁棒控制策略构建方法。
力 - 视融合控制器 (FVFC)：将传统控制与 RL 结合，RL 用于在线调整控制器参数，既保证了物理层面的柔顺性，又提升了适应复杂动力学的能力。
高效的多任务训练与蒸馏机制：
- 通过任务分解和 MTRL 解决了单任务训练效率低和泛化性差的问题。
- 通过策略蒸馏实现了从“特定子任务策略”到“通用鲁棒策略”的迁移，无需额外的物理交互即可整合多任务知识。
实验验证：在真实物理环境中验证了该方法对不规则六边形零件的装配能力，覆盖了从 -0.04mm（过盈）到 +0.04mm（间隙）的连续范围。

4. 实验结果 (Results)

实验在 UR10 机器人平台上进行，使用六维力传感器和双相机系统，针对不规则六边形轴孔配合进行测试。

训练效率：FVFC-MTRL 相比单任务训练（STRL）收敛速度更快，样本效率提升超过 50%。
装配成功率：
- 提出的方法（FVFC-MTRL-PD）在四个子任务及随机批量测试中，平均成功率达到 98.5%。
- 相比之下，传统力控（FBCC）成功率仅为 42%，模型驱动 RL（MDRL）为 54%。
接触力控制（柔顺性）：
- 在过盈配合（T2）和间隙配合（T4）中，FVFC-MTRL-PD 产生的最大接触力（Fx, Fy, Fz）和力矩均显著低于其他对比方法。
- 例如在 T2 过盈配合中，最大轴向力仅为 1.028 N，远低于 FBCC 的 2.129 N。
泛化能力：
- 在未见过的配合量（如 G6 组，干涉力达 5.18N，超出训练范围）和极端工况（无倒角、零件变形）下，该方法仍能保持约 90% 的成功率，而对比方法（MDRL）在极端工况下失败率高达 100%。

5. 意义与价值 (Significance)

工业应用价值：解决了 3C 行业批量生产中因公差导致的“过渡配合”装配难题，无需对每个零件进行单独测量，即可实现高成功率、低损伤的自动化装配。
方法论创新：证明了“任务分解 + 多任务学习 + 策略蒸馏”是解决机器人接触任务中参数不确定性问题的有效范式，比单纯的大规模域随机化更高效、更鲁棒。
扩展性：该方法不仅适用于配合量变化，通过调整任务分解方式，理论上也可扩展至不同几何形状零件的装配任务。

总结：该论文成功构建了一套从理论分解到物理实现的完整方案，利用深度强化学习和知识蒸馏技术，显著提升了机器人在高不确定性、高精度工业装配场景下的鲁棒性和柔顺性，具有重要的学术价值和工程应用前景。