Construct, Merge, Solve & Adapt with Reinforcement Learning for the min-max Multiple Traveling Salesman Problem

本文提出了一种结合强化学习与“构建 - 合并 - 求解 - 适应”框架的混合算法(RL-CMSA),通过强化学习引导的聚类构建、受限混合整数规划求解及自适应池优化,有效解决了最小化最大路径的对称单 depot 多旅行商问题,并在各类测试实例中展现出优于现有混合遗传算法的性能。

Guillem Rodríguez-Corominas, Maria J. Blesa, Christian Blum

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 RL-CMSA 的新算法,用来解决一个非常经典的物流难题:“多旅行商问题”(mTSP)中的“最小 - 最大”版本

为了让你轻松理解,我们可以把这个复杂的数学问题想象成**“给一群快递员分配送货任务,目标是让最忙的那个快递员也尽可能轻松”**。

1. 核心问题:如何公平地分派任务?

想象你是一家快递公司的老板,你有一个仓库(** depot**),有 nn 个客户需要送货,还有 mm 个快递员(salesmen)。

  • 传统做法(最小总和): 目标是让所有快递员加起来的总路程最短。但这可能导致一个快递员跑了 100 公里,另一个只跑了 1 公里,虽然总路程短了,但那个跑 100 公里的累死了,这不公平。
  • 本文的目标(最小 - 最大): 目标是让跑得最远的那个快递员的路程尽可能短。这就像是在说:“我们要确保最累的那个人也能准时下班。”这在无人机巡逻、多机器人协作或公平派单中非常重要。

2. 他们的解决方案:RL-CMSA(一个聪明的“六步循环”)

作者没有只用一种方法,而是设计了一个像**“智能流水线”一样的混合系统,叫 RL-CMSA。它结合了“构建”、“合并”、“求解”和“适应”四个步骤,并加上了强化学习(RL)**作为“大脑”。

我们可以把这个过程想象成**“组建一支超级梦之队”**:

第一步:构建 (Construct) —— 智能分组

  • 传统做法: 随机把客户分给快递员,或者按距离硬切。
  • RL-CMSA 的做法: 它有一个**“记忆大脑”**(强化学习)。
    • 它记得哪些客户经常出现在同一条路线上(比如住在同一个小区)。
    • 它利用这个经验,像**“相亲角”**一样,把可能属于同一条路线的客户“配对”在一起。
    • 比喻: 就像老师排座位,不仅看谁住得近,还看谁以前坐一起时表现好(学习到的“奖励值”),从而更聪明地把客户分给不同的快递员。

第二步:合并 (Merge) —— 建立“路线图书馆”

  • 算法会生成很多种不同的送货方案。
  • 它把这些方案里出现的**“优秀路线片段”(比如从 A 到 B 再到 C 的短途)收集起来,放进一个“路线图书馆”**(Pool)。
  • 比喻: 就像厨师收集各种好吃的“半成品菜”。如果某条路线太长了(比如超过了当前最好的方案),就直接扔掉,只保留精华。

第三步:求解 (Solve) —— 超级拼图

  • 现在有了“路线图书馆”,算法不再从头开始算,而是像一个**“拼图大师”**。
  • 它使用一个强大的数学工具(MILP 求解器),从图书馆里挑出 mm 条路线,拼成一个完整的、覆盖所有客户的方案,并且保证没有重叠,同时让最长的那条路最短。
  • 比喻: 就像你有一堆乐高积木(路线片段),你不需要自己发明新积木,而是从盒子里挑出最合适的几块,瞬间拼出一个完美的城堡。

第四步:改进 (Improve) —— 微调与优化

  • 拼出来的方案可能还不够完美。
  • 算法会进行**“微调”**:
    • 移除 (Remove): 把重复出现的客户从多余的路线里删掉。
    • 移动 (Shift): 把某个客户从 A 路线移到 B 路线,看看能不能让 A 路线变短。
    • 交换 (Swap): 把 A 路线的一个客户和 B 路线的一个客户互换,看看能不能让两条路都变短。
  • 比喻: 就像装修房子,发现沙发挡路了,就挪一挪;发现两个房间互换一下布局更合理,就换一换。

第五步:学习 (Learn) —— 经验总结

  • 这是强化学习发挥作用的地方。
  • 如果刚才拼出来的方案很好,算法就会**“奖励”**那些出现在好方案里的客户组合(比如“客户 A 和客户 B 经常在一起”),提高它们下次被分到一起的概率。
  • 如果某些组合不好,就**“惩罚”**它们。
  • 比喻: 就像下棋,赢了就记住这步棋好,输了就记住这步棋坏。下次下棋时,大脑会自动倾向于走“赢过”的路。

第六步:适应 (Adapt) —— 优胜劣汰

  • 随着时间推移,算法会**“老化”**那些很久没被选中的旧路线,把它们从图书馆里清理掉,腾出空间给新发现的更好路线。
  • 比喻: 就像公司的绩效考核,长期表现不好的员工(路线)会被淘汰,给新来的有潜力的员工(新路线)让位。

3. 结果怎么样?

作者用了很多测试数据(包括随机生成的和真实的地图数据)来对比他们的方法和一个目前最先进的“混合遗传算法”(HGA)。

  • 结论: 在大多数情况下,RL-CMSA 赢了
    • 更稳: 它每次跑出来的结果都很接近,不会像 HGA 那样有时候好、有时候差。
    • 更快: 它找到好方案的速度通常更快。
    • 更擅长处理大场面: 当客户数量多、快递员数量也多时,RL-CMSA 的优势更明显。
  • 唯一的弱点: 当快递员非常少(比如只有 1% 的客户数)且客户非常多时,它稍微有点吃力。这是因为路线太长,很难像拼图一样灵活组合。

4. 总结

这篇论文的核心思想就是:不要盲目地从头开始算,也不要只靠运气。

RL-CMSA 就像是一个**“有经验的物流经理”**:

  1. 记得以前成功的送货模式(强化学习)。
  2. 他有一个精选的素材库(路线池)。
  3. 他擅长快速组合这些素材(MILP 求解)。
  4. 他还会不断复盘,把不好的经验忘掉,把好的经验记牢。

这种方法不仅让送货更公平(最忙的人也不累),而且比传统的算法更聪明、更稳定。对于未来的无人机配送、机器人协作等场景,这是一个非常有潜力的解决方案。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →