Scalable Construction of Spiking Neural Networks using up to thousands of GPUs

本文提出了一种基于 MPI 的新方法,用于在多 GPU 集群和百亿亿次超级计算机上构建和模拟大规模脉冲神经网络,并通过优化的局部连接与脉冲交换策略,展示了复杂皮层模型的高效扩展能力。

原作者: Bruno Golosio, Gianmarco Tiddia, José Villamar, Luca Pontisso, Luca Sergi, Francesco Simula, Pooja Babu, Elena Pastorelli, Abigail Morrison, Markus Diesmann, Alessandro Lonardo, Pier Stanislao Paolucc
发布于 2026-05-18
📖 1 分钟阅读☕ 轻松阅读

原作者: Bruno Golosio, Gianmarco Tiddia, José Villamar, Luca Pontisso, Luca Sergi, Francesco Simula, Pooja Babu, Elena Pastorelli, Abigail Morrison, Markus Diesmann, Alessandro Lonardo, Pier Stanislao Paolucci, Johanna Senk

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

想象一下试图在计算机上模拟人脑。人脑是一座拥有约 860 亿个神经元的庞大城市,每个神经元就像一座房子,每秒向成千上万座其他房子发送微小的电“短信”(称为脉冲)。要模拟这一过程,你需要一台由数千张图形处理器(GPU)协同工作的超级计算机。

问题在于,这些 GPU 就像岛屿。它们速度很快,但彼此之间难以直接沟通。如果一个岛屿想要向另一个岛屿发送消息,“邮差”(通信系统)就必须来回奔跑,这会拖慢一切。

本文介绍了一种全新的、更快速的方法来在模拟开始之前构建这些连接的“地图”,从而使 GPU 能够在模拟过程中避免陷入交通拥堵。

以下是他们如何做到的简要说明:

1. 旧方法:在主陆地上构建地图

以前,当科学家想要模拟脑网络时,他们首先会在缓慢的中央计算机(CPU)上构建“连接地图”。然后,他们必须将这张巨大的地图复制到快速的 GPU 上。

  • 类比:想象你在组织一场盛大的派对。在旧方法中,你在厨房(CPU)的一张纸上写下每一位客人的名字以及他们认识谁,然后跑到每一个房间(GPU)去分发这份名单的副本。光是准备阶段就花费了很长时间。

2. 新方法:在房间内部构建地图

作者们开发了一种新方法,让每个 GPU 直接在其自己的内存中构建其“专属”的连接地图部分,而无需等待中央计算机。

  • 类比:现在,不再需要在厨房里写名单,每个房间都有自己的记事本。派对一开始,每个房间里的客人就在那里直接写下他们认识的人。无需再来回跑向厨房。
  • 结果:这种“板载”构建方式比旧方法快 10 倍以上。在一次测试中,构建网络仅耗时 55 秒,而旧方法则需要近 12 分钟。

3. 两种发送消息的方式

一旦地图构建完成,GPU 在模拟过程中就需要交换“短信”(脉冲)。本文针对不同的网络组织方式,测试了两种不同的策略:

  • 策略 A:直接电话呼叫(点对点)

    • 工作原理:如果 GPU #1 中的某个神经元需要与 GPU #2 中的特定神经元交谈,它会直接呼叫该特定 GPU。
    • 适用场景:连接不均匀或具有特定性的网络(例如真实的大脑,某些区域彼此交流频繁,但并非与所有人交流)。
    • 论文主张:他们利用这种方法对猴子的视觉皮层模型(包含 32 个不同区域)进行了测试。结果完美运行,证明了新的建图方法与复杂、真实的脑结构是兼容的。
  • 策略 B:群聊(集体通信)

    • 工作原理:GPU 不是呼叫个人,而是将消息一次性向一整组 GPU 广播。组内的每个人都会听到喊声,并检查消息是否属于自己。
    • 适用场景:巨大的随机网络,其中每个人都在与所有人交谈(例如一个平衡的群体)。
    • 论文主张:他们在扩展到1,024 张 GPU的庞大“平衡网络”上测试了这种方法。这是一个协同工作的显卡数量巨大的规模。他们表明,即使使用如此多的显卡,系统也能平稳扩展而不会崩溃。

4. “内存层级”技巧

GPU 拥有大量内存,但并非无限。存储数十亿个神经元的连接地图需要占用大量空间。

  • 类比:想象你有一张小桌子(GPU 内存)和一个巨大的仓库(CPU 内存)。
  • 解决方案:作者们创建了四个“层级”的组织方式。
    • 层级 0:将地图保存在仓库(CPU)中,仅将所需内容带到桌子上。这节省了桌面空间,但获取速度较慢。
    • 层级 3:将桌子上填满所有内容。这是最快的,但需要更大的桌子。
  • 论文主张:他们表明,通过选择合适的层级,他们可以在拥有 4,096 张 GPU 的Leonardo Booster超级计算机上运行模拟,甚至预测即将到来的JUPITER超级计算机可以模拟拥有2.3 亿个神经元和 2.5 万亿个突触的网络。这大致相当于人类大脑皮层的大小!

成就总结

  • 速度:通过在图形卡上直接构建网络地图,他们将脑模拟的“设置”阶段加快了 10 倍。
  • 规模:他们证明了该方法可同时支持多达 1,024 张 GPU。
  • 灵活性:他们展示了两种不同的通信处理方式(直接呼叫与群聊),以便科学家能为其特定的脑模型选择最佳方法。
  • 面向未来:他们的方法旨在适用于下一代“exascale"(百亿亿次)超级计算机,这些计算机将具备足够的算力,能够模拟包含单个突触细节的完整人脑。

简而言之,他们不仅让模拟运行得更快,还为数据构建了一个更好的“道路系统”,使超级计算机在比赛甚至开始之前就不会陷入交通拥堵。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →