Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是如何解决**“边缘计算”（Edge AI）中一个非常头疼的问题：如何把人工智能服务**（比如图片生成、语音识别）和普通软件服务（比如登录验证、数据转发）像搭积木一样，高效地安排在有限的边缘服务器上，让用户体验最快。

为了让你更容易理解，我们可以把整个系统想象成一个繁忙的“超级物流园区”。

1. 背景：为什么现在很乱？

想象一下，你开了一家**“智能快递站”**（边缘计算节点）。

普通包裹（微服务）：比如贴个标签、查个地址。这些包裹很轻，处理起来快，但数量巨大，需要很多个小工人在流水线上快速处理。
重型机器（AI 服务）：比如需要一台巨大的 3D 打印机来打印一个复杂的模型。这个机器很占地方，需要专门的电力（GPU），而且一次只能处理一个任务，但处理速度很快。

现在的痛点是：
以前的物流系统只关注怎么把“普通包裹”送得快，或者只关注怎么让"3D 打印机”不闲着。但实际上，一个完整的订单（比如你发一张图让它变成动漫风格）往往需要先经过“身份验证”（普通服务），再送到"3D 打印机”（AI 服务），最后还要“打包发货”。

如果“身份验证”的工人在 A 区，"3D 打印机”在 B 区，包裹就得在两个区之间跑来跑去，路途时间（延迟）就浪费了。而且，A 区和 B 区的地盘（服务器资源）都很小，如果不小心把太多东西堆在一起，就会堵车，甚至把机器压坏。

2. 核心挑战：两个难题

这篇论文指出了两个主要麻烦：

资源打架：普通服务喜欢“人海战术”（开很多小窗口），AI 服务喜欢“单兵作战”（用大机器但占地方）。把它们混在一起安排，很容易导致有的地方没地儿放，有的地方机器在空转。
决策太复杂：决定把哪个服务放在哪个服务器，以及让请求走哪条路，就像是在玩一个超大规模的“俄罗斯方块”。而且，这个方块还在不断掉落（新的请求不断进来），传统的算法要么算得太慢，要么只能顾头不顾尾（只优化部署，不管路由）。

3. 解决方案：SIL-GPO（超级智能调度员）

作者提出了一种叫 SIL-GPO 的新方法，我们可以把它想象成一个拥有“上帝视角”和“超级记忆力”的 AI 调度员。

这个调度员有两项超能力：

超能力一：看图说话（图神经网络 GAT）

普通的调度员可能只看每个服务器的“剩余空间”数字。但 SIL-GPO 调度员手里有一张动态的“关系地图”。

它能看清：A 服务必须紧挨着 B 服务，否则它们之间传话（数据）太慢。
它能看清：C 服务器虽然空着，但离 D 服务太远，走过去要很久。
比喻：就像玩《模拟城市》，它不是只看哪块地是空的，而是看整个城市的交通网，知道把工厂建在港口旁边最省运费。

超能力二：自我模仿学习（Self-Imitation Learning）

这是最酷的部分。在强化学习（AI 试错学习）中，AI 经常会遇到“奖励很少”的情况（比如试了很多次，发现延迟还是很高，不知道哪里做对了）。

普通 AI：可能会因为一直失败而变得很迷茫，或者陷入死胡同。
SIL-GPO：它有一个**“高光时刻回放本”。每当它偶然发现了一条特别快的路线（高奖励），它就会把这条路线记在小本本上**。
自我模仿：下次它不知道该怎么办时，它会翻小本本：“哎，上次我这么干效果不错，我再模仿一次试试！”
比喻：就像你学骑自行车，摔了很多次后，突然有一次骑得特别顺。SIL-GPO 会把那次“特别顺”的感觉记住，下次遇到困难就照着那次成功的动作做，从而更快地学会骑车，而不是从头再来。

4. 它是如何工作的？（三步走）

观察：调度员看着当前的服务器状态（哪里有空地、哪里堵车、请求从哪里来）。
决策：它决定把哪个服务放在哪个服务器，并规划好请求的路线。
反馈与进化：
- 如果这次安排让包裹送得更快了，它就把这个“成功配方”记下来（存入高光回放本）。
- 如果慢了，它就吸取教训。
- 它利用“高光回放”来加速学习，不再盲目乱撞。

5. 结果怎么样？

作者做了很多实验，把他们的“超级调度员”和现有的其他方法（比如纯靠经验的、纯靠数学公式的、或者普通的 AI）做对比。

结果非常惊人：

速度更快：用户的等待时间（延迟）显著降低，比最好的现有方法快了15% 到 30%。
更省资源：在同样的服务器数量下，它能处理更多的请求，或者用更少的服务器完成同样的任务。
更聪明：特别是在请求量很大、服务链条很长的时候，它的优势最明显。

总结

这篇论文就像是给边缘计算网络请了一位**“天才交通指挥官”。
它不再把 AI 服务和普通服务分开看，而是把它们当成一个整体，利用“关系地图”看清全局，利用“模仿成功”**来快速变强。最终，它让所有的数据包裹都能以最快的速度、最少的拥堵，到达用户手中。

一句话概括：用一种会“看图”且懂得“复盘成功经验”的 AI，把复杂的边缘计算服务安排得井井有条，让网速更快、体验更丝滑。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
随着人工智能（AI）在边缘计算领域的广泛应用，现代边缘应用通常采用微服务架构，将AI 服务（如模型推理）与传统微服务（如 API 网关、鉴权、数据预处理）集成在复杂的请求链中。这些应用对延迟极其敏感。

核心挑战：
现有的研究大多将 AI 服务和传统微服务割裂开来优化，或者仅关注单一类型的服务部署。然而，在实际场景中，两者存在紧密的操作依赖（如请求链顺序）和资源异构性（AI 服务依赖稀缺的 GPU，微服务依赖 CPU/内存且常需多实例）。
主要问题包括：

混合编排难题：如何在资源受限的边缘服务器上，同时优化 AI 服务和微服务的部署位置（Service Deployment）与请求路由（Request Routing）。
耦合性：部署决策直接影响路由效率，而路由决策又反过来影响服务延迟，两者强耦合，难以独立优化。
资源竞争：AI 服务通常单实例重资源，微服务多实例轻资源，两者在边缘节点上存在激烈的资源竞争。
组合爆炸：在大规模服务拓扑和稀疏奖励环境下，传统的强化学习难以在巨大的组合动作空间中找到全局最优解。

目标：
最小化端到端的服务请求响应延迟（End-to-End Latency），同时提高资源利用率。

2. 方法论 (Methodology)

论文提出了 SIL-GPO（Self-Imitation Learning-enhanced Graph Policy Optimization，基于自模仿学习的图策略优化）框架。

2.1 系统建模

网络模型：将边缘网络建模为异构图，包含通用计算存储服务器（UCS，仅 CPU/内存）和混合加速计算服务器（HAC，含 GPU）。
服务模型：
- 微服务：可部署在任意服务器，通常多实例，无 GPU 需求。
- AI 服务：必须部署在 HAC 服务器，单实例，高 GPU 需求。
- 推理效率分析：基于 LLM（如 LLAMA3）的推理过程（Prefill 和 Decoding 阶段）建立了详细的计算负载和显存占用模型。
排队模型：采用Open Jackson 排队网络模型，将服务请求处理分解为四个阶段：传输延迟、排队与处理延迟、通信转发延迟、结果返回延迟。
问题形式化：将混合编排问题建模为混合整数非线性规划（MINLP）问题，并转化为序列决策任务（MDP）。

2.2 强化学习框架设计 (SIL-GPO)

**状态空间 **(State)：
- 包含向量特征（服务到达率分布、服务器资源可用性标记）。
- 包含图结构特征：
  - $G^D_t$ ：服务部署拓扑图（节点特征为各服务器上的服务实例数量）。
  - $G^R_t$ ：请求路由转发图（节点特征为路由概率）。
  - $G^S_t$ ：服务调用依赖图（节点特征为服务的资源需求和处理速率）。
- 利用**图注意力网络 **(GAT) 编码这些图结构，提取节点间的依赖关系和全局状态特征。
**动作空间 **(Action)：
- 采用增量部署策略：每一步动作选择一个服务实例并将其部署到某个可用服务器上。
- 利用状态掩码过滤无效动作（如资源不足的服务器）。
**奖励函数 **(Reward)：
- 设计了双阶段奖励机制以解决稀疏奖励问题：
  1. 中间稀疏奖励：基于每一步部署后延迟的局部变化（减少则奖励，增加则惩罚）。
  2. 最终结算奖励：基于完整部署后的全局总延迟，并与历史最优及上一轮次进行对比。
**算法核心：自模仿学习 **(Self-Imitation Learning, SIL)：
- 在标准的 PPO（近端策略优化）算法基础上，引入 SIL 机制。
- 维护一个**高回报经验回放缓冲区 **(High-Return Buffer)，专门存储累积奖励高的轨迹。
- 在训练过程中，智能体不仅学习当前策略，还模仿过去的高回报轨迹，从而在稀疏奖励和巨大动作空间中加速收敛，避免陷入局部最优。

3. 主要贡献 (Key Contributions)

细粒度的混合编排模型：提出了基于 Open Jackson 排队网络的细粒度多实例混合编排模型，首次同时考虑了 AI 服务与传统微服务的异构资源需求、依赖关系及端到端延迟优化，将其形式化为 MINLP 问题。
SIL-GPO 算法：
- 提出了一种结合**图注意力网络 (GAT) 和自模仿学习 **(SIL) 的强化学习算法。
- GAT 有效编码了服务拓扑和路由依赖，增强了状态表示能力。
- SIL 策略通过重用高回报轨迹，显著提升了在稀疏奖励环境下的探索效率和收敛速度。
联合优化：实现了服务部署（Placement）与请求路由（Routing）的联合优化，而非传统的分阶段优化。
实验验证：基于真实边缘计算轨迹数据进行了广泛实验，证明了该方法在降低延迟和提升资源利用率方面的优越性。

4. 实验结果 (Results)

实验在模拟的边缘环境（基于 EUA 数据集，包含 10 个边缘服务器，7 个 UCS 和 3 个 HAC）中进行，对比了遗传算法 (HELAS)、贪婪启发式 (MFDS-FPR) 和深度强化学习 (RSDQL) 等基线算法。

延迟优化：
- 在不同服务请求到达率下，SIL-GPO 相比最优基线算法（RSDQL）降低了约 19.4% 的总响应延迟；相比启发式算法（HELAS）降低了 32.6%。
- 在不同请求链长度下，SIL-GPO 始终保持最低延迟，比 HELAS 降低 28.6%。
- 相比最优基线，总响应延迟减少了 15.19%。
资源利用率：
- SIL-GPO 与 RSDQL 在资源消耗（CPU/GPU/内存）上相当，但显著优于 HELAS 和 MFDS-FPR。
- 在相同资源消耗下，SIL-GPO 实现了更低的延迟，证明了其调度策略的高效性。
收敛性：
- 通过调整学习率（最佳为 0.00005），SIL-GPO 表现出稳定的收敛性，Actor 和 Critic 的损失函数均趋于稳定。
- 引入 SIL 机制后，算法在稀疏奖励环境下能更快找到全局最优解。

5. 意义与价值 (Significance)

理论创新：打破了以往将 AI 服务与传统微服务隔离优化的局限，提出了统一的混合编排理论框架，解决了边缘计算中异构资源协同调度的难题。
技术突破：将图神经网络（GNN）与自模仿学习（SIL）结合应用于边缘资源编排，为处理高维、组合爆炸的决策问题提供了新的范式。
实际应用：为低延迟、高可靠的边缘 AI 应用（如自动驾驶、工业物联网、实时视频生成）提供了可扩展的部署方案，能够显著提升用户体验（QoS）。
未来方向：该框架为未来在更复杂的动态边缘环境中实现 AI 与微服务的自适应协同优化奠定了基础。

总结：该论文通过 SIL-GPO 框架，成功解决了边缘环境下 AI 服务与传统微服务混合编排的复杂性问题，利用图神经网络感知拓扑结构，利用自模仿学习加速策略优化，显著降低了端到端延迟并优化了资源利用，是边缘计算与 AI 系统优化领域的一项重要进展。