Combining Serverless and High-Performance Computing Paradigms to support ML Data-Intensive Applications

该论文介绍了 Cylon 项目,通过设计基于 NAT 穿透 TCP 打孔技术的无服务器通信器,解决了 AWS Lambda 在处理大规模机器学习数据时的通信瓶颈,使其在 64 个节点上的扩展效率达到了传统 EC2 集群的 93.5%。

Mills Staylor, Arup Kumar Sarker, Gregor von Laszewski, Geoffrey Fox, Yue Cheng, Judy Fox

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让“无服务器”计算(Serverless)像超级计算机一样高效处理海量数据的故事。

为了让你更容易理解,我们可以把整个技术过程想象成组织一场全球规模的“接力赛”

1. 背景:数据像洪水,传统方法太慢太贵

想象一下,现在的世界充满了数据(就像洪水一样),从医疗记录到手机传感器,数据量巨大。

  • 传统做法:以前,科学家处理这些数据就像租下一整栋大楼(传统的服务器集群/HPC)。你需要自己买砖头、修水管、雇保安(维护硬件),不管有没有人用水,你都得付房租。这很贵,而且如果突然没人用水,资源就浪费了。
  • 新趋势(无服务器/Serverless):现在有了像 AWS Lambda 这样的“无服务器”技术。这就像按次付费的共享办公空间。你只需要付你实际使用的时间和空间的费用。用多少付多少,不用时不花钱。
  • 问题:虽然“共享办公”很便宜,但它有个大毛病——沟通效率低
    • 在传统的“大楼”里,工人们(计算节点)可以面对面大声喊话,或者通过内部对讲机(高速网络)瞬间传递信息。
    • 在“共享办公”里,工人们被隔离在不同的房间里。如果他们要传递数据,必须先把文件存到楼下的公共储物柜(如 AWS S3 或 Redis),然后下一个人再去储物柜取。
    • 后果:这就好比送快递,本来两个人可以直接握手传递,现在却非要绕道邮局寄个包裹再取回来。对于需要频繁交换数据的复杂任务(如机器学习),这种“绕道”会让速度变得极慢。

2. 核心创新:Cylon 与“秘密握手”

为了解决这个问题,弗吉尼亚大学的研究团队开发了一个叫 Cylon 的工具,并设计了一种**“秘密握手”**机制。

  • Cylon 是什么?
    想象它是一个超级高效的翻译官和搬运工。它能把各种数据格式(像 Pandas 表格)统一成一种大家都能快速理解的语言(Apache Arrow),并且能在不同环境(云端、超级计算机、无服务器)之间无缝搬运。

  • 关键突破:NAT 穿透与 TCP 打孔(NAT Traversal TCP Hole Punching)
    这是论文最精彩的部分。

    • 以前的困境:AWS Lambda 的每个函数都在防火墙后面,就像住在没有门牌号、被围墙围起来的房子里。它们互相看不见,也打不通电话。
    • 新方案:研究团队设计了一种**“秘密握手”**(TCP Hole Punching)。
      • 想象两个住在不同公寓楼(防火墙后)的人,想直接对话。
      • 他们先同时给楼下的**门卫(公共协调服务器)**发信号:“我要找隔壁楼的老张!”
      • 门卫记下他们的临时联系方式,并告诉老张:“隔壁楼的小明在找你,这是他的临时通道。”
      • 于是,小明和老张直接建立了一条私人的、高速的直通电话线,完全绕过了“公共储物柜”(S3/Redis)。
    • 效果:数据不再需要绕道邮局,而是直接“握手”传递。速度提升了10 到 100 倍

3. 实验结果:无服务器也能跑得快

研究人员在 AWS Lambda(无服务器)和 EC2(传统云服务器)以及 Rivanna 超级计算机上进行了测试,主要看“多人协作处理数据”(分布式连接/Join 操作)的速度。

  • 速度对比

    • 在 64 个节点(64 个人)一起工作时,使用“秘密握手”的无服务器方案,其效率达到了传统云服务器(EC2)的 93.5%(差距仅为 6.5%)。
    • 这意味着,无服务器不再是“慢吞吞”的代名词,它现在也能跑得快如闪电。
  • 成本对比

    • 对于那种“平时没事,突然爆发大量任务”的工作(比如地震预测、基因分析),无服务器方案极其省钱
    • 传统服务器就像包月健身房,不管你练不练都要付钱。
    • 无服务器就像按次付费的私教课,只在你真正开始计算的那几分钟收费。
    • 实验显示,处理一次大规模数据任务,无服务器方案可能只需几分钱,而传统方案如果为了应对突发流量而预留资源,可能会浪费大量资金。

4. 总结与意义

这篇论文告诉我们:

  1. 打破偏见:以前大家认为无服务器只能做简单的、互不干扰的任务(比如处理几百张独立的图片)。现在证明,它也能处理复杂的、需要频繁沟通的超级计算任务(如 AI 训练、基因测序)。
  2. 技术魔法:通过“秘密握手”(NAT 穿透)技术,让被隔离的无服务器函数能像在一个房间里一样直接对话。
  3. 未来应用:这项技术将帮助科学家更便宜、更快速地处理天文学图像、地震预测、洪水模拟和基因研究等海量数据任务。

一句话总结
研究团队给“无服务器”计算装上了**“超光速对讲机”,让它不再需要绕路去“邮局”取数据,从而在保持按次付费的超低成本优势的同时,获得了接近超级计算机**的惊人速度。