原作者： Bruno Golosio, Gianmarco Tiddia, José Villamar, Luca Pontisso, Luca Sergi, Francesco Simula, Pooja Babu, Elena Pastorelli, Abigail Morrison, Markus Diesmann, Alessandro Lonardo, Pier Stanislao Paolucc

发布于 2026-05-18

📖 1 分钟阅读☕ 轻松阅读

CC BY 4.0

原作者： Bruno Golosio, Gianmarco Tiddia, José Villamar, Luca Pontisso, Luca Sergi, Francesco Simula, Pooja Babu, Elena Pastorelli, Abigail Morrison, Markus Diesmann, Alessandro Lonardo, Pier Stanislao Paolucci, Johanna Senk

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ⚕️ 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。阅读完整免责声明

想象一下试图在计算机上模拟人脑。人脑是一座拥有约 860 亿个神经元的庞大城市，每个神经元就像一座房子，每秒向成千上万座其他房子发送微小的电“短信”（称为脉冲）。要模拟这一过程，你需要一台由数千张图形处理器（GPU）协同工作的超级计算机。

问题在于，这些 GPU 就像岛屿。它们速度很快，但彼此之间难以直接沟通。如果一个岛屿想要向另一个岛屿发送消息，“邮差”（通信系统）就必须来回奔跑，这会拖慢一切。

本文介绍了一种全新的、更快速的方法来在模拟开始之前构建这些连接的“地图”，从而使 GPU 能够在模拟过程中避免陷入交通拥堵。

以下是他们如何做到的简要说明：

1. 旧方法：在主陆地上构建地图

以前，当科学家想要模拟脑网络时，他们首先会在缓慢的中央计算机（CPU）上构建“连接地图”。然后，他们必须将这张巨大的地图复制到快速的 GPU 上。

类比：想象你在组织一场盛大的派对。在旧方法中，你在厨房（CPU）的一张纸上写下每一位客人的名字以及他们认识谁，然后跑到每一个房间（GPU）去分发这份名单的副本。光是准备阶段就花费了很长时间。

2. 新方法：在房间内部构建地图

作者们开发了一种新方法，让每个 GPU 直接在其自己的内存中构建其“专属”的连接地图部分，而无需等待中央计算机。

类比：现在，不再需要在厨房里写名单，每个房间都有自己的记事本。派对一开始，每个房间里的客人就在那里直接写下他们认识的人。无需再来回跑向厨房。
结果：这种“板载”构建方式比旧方法快 10 倍以上。在一次测试中，构建网络仅耗时 55 秒，而旧方法则需要近 12 分钟。

3. 两种发送消息的方式

一旦地图构建完成，GPU 在模拟过程中就需要交换“短信”（脉冲）。本文针对不同的网络组织方式，测试了两种不同的策略：

策略 A：直接电话呼叫（点对点）
- 工作原理：如果 GPU #1 中的某个神经元需要与 GPU #2 中的特定神经元交谈，它会直接呼叫该特定 GPU。
- 适用场景：连接不均匀或具有特定性的网络（例如真实的大脑，某些区域彼此交流频繁，但并非与所有人交流）。
- 论文主张：他们利用这种方法对猴子的视觉皮层模型（包含 32 个不同区域）进行了测试。结果完美运行，证明了新的建图方法与复杂、真实的脑结构是兼容的。
策略 B：群聊（集体通信）
- 工作原理：GPU 不是呼叫个人，而是将消息一次性向一整组 GPU 广播。组内的每个人都会听到喊声，并检查消息是否属于自己。
- 适用场景：巨大的随机网络，其中每个人都在与所有人交谈（例如一个平衡的群体）。
- 论文主张：他们在扩展到1,024 张 GPU的庞大“平衡网络”上测试了这种方法。这是一个协同工作的显卡数量巨大的规模。他们表明，即使使用如此多的显卡，系统也能平稳扩展而不会崩溃。

4. “内存层级”技巧

GPU 拥有大量内存，但并非无限。存储数十亿个神经元的连接地图需要占用大量空间。

类比：想象你有一张小桌子（GPU 内存）和一个巨大的仓库（CPU 内存）。
解决方案：作者们创建了四个“层级”的组织方式。
- 层级 0：将地图保存在仓库（CPU）中，仅将所需内容带到桌子上。这节省了桌面空间，但获取速度较慢。
- 层级 3：将桌子上填满所有内容。这是最快的，但需要更大的桌子。
论文主张：他们表明，通过选择合适的层级，他们可以在拥有 4,096 张 GPU 的Leonardo Booster超级计算机上运行模拟，甚至预测即将到来的JUPITER超级计算机可以模拟拥有2.3 亿个神经元和 2.5 万亿个突触的网络。这大致相当于人类大脑皮层的大小！

成就总结

速度：通过在图形卡上直接构建网络地图，他们将脑模拟的“设置”阶段加快了 10 倍。
规模：他们证明了该方法可同时支持多达 1,024 张 GPU。
灵活性：他们展示了两种不同的通信处理方式（直接呼叫与群聊），以便科学家能为其特定的脑模型选择最佳方法。
面向未来：他们的方法旨在适用于下一代“exascale"（百亿亿次）超级计算机，这些计算机将具备足够的算力，能够模拟包含单个突触细节的完整人脑。

简而言之，他们不仅让模拟运行得更快，还为数据构建了一个更好的“道路系统”，使超级计算机在比赛甚至开始之前就不会陷入交通拥堵。

技术摘要：使用多达数千个 GPU 可扩展地构建脉冲神经网络

问题陈述

在人类大脑皮层规模上模拟大规模脉冲神经网络（SNN）面临两个主要挑战：单个神经元和突触的巨大内存需求，以及需要极高的处理速度以解析亚毫秒级精度的动力学。虽然配备数千个 GPU 的高性能计算（HPC）系统提供了必要的计算密度，但现有的基于 GPU 的模拟软件尚未展现出在满足计算神经科学的基础设施和精度需求的同时，扩展至整个计算集群的能力。

在大规模点神经元网络的分布式模拟中，一个具体的瓶颈是计算集群不同节点之间脉冲（spikes）的通信。以往的方法，如 Digital Brain 或 GeNN，要么省略单个突触信息，要么仅限于单 GPU 执行。此外，传统的基于 CPU 的模拟器（如 NEST）依赖于轮询（round-robin）神经元分布和集体通信，这假设了网络结构的同质性，未能利用生物大脑的拓扑和空间异质性。虽然 NEST GPU 解决了一些这些问题，但其初始网络构建依赖于将数据从 CPU 传输到 GPU 内存，且动态构建方法此前仅限于单 GPU 模拟。

方法论

这项工作提出了一种新颖的、内存高效的构建和模拟大规模 SNN 的方法，直接在多 GPU 系统上使用消息传递接口（MPI）。核心创新在于在构建阶段完全在 GPU 内存内（"onboard"）执行网络构建，无需进行进程间通信。

核心算法

该方法区分了局部连接（同一 MPI 进程内的神经元）和远程连接（不同进程间的神经元）。

独立构建：每个 MPI 进程独立构建其网络部分。它在创建局部连接的同时，为远程连接准备数据结构，而无需与其他进程通信。
代理表示：对于远程连接，该方法在目标进程中使用“镜像神经元”（image neurons，即代理）。这些是位于其他 MPI 秩（rank）中的源神经元的虚拟表示。
通信映射：该算法在 GPU 内存中实例化连续的通信映射，以高效地路由脉冲。这些映射将源秩中源神经元的索引与其在目标秩中镜像神经元的索引关联起来。
通信方案：该框架支持两种 MPI 通信模式，用户可根据网络架构进行选择：
- 点对点（Point-to-Point）：使用两个进程之间的直接通信。它针对神经元或突触分布不均匀的网络进行了优化（例如多区域模型）。它利用特定的映射结构 $(R_{\tau,\sigma}, L_{\tau,\sigma})$ 和序列 $(T, P)$ 来路由脉冲。
- 集体（Collective）：使用基于组的通信（例如 MPI_Allgather）。这对于具有同质通信负载的平衡网络具有优势。它采用特定于组的索引数组和主机数组来同时管理跨多个进程的脉冲路由。

GPU 内存优化

为了平衡 GPU 内存消耗和模拟速度，作者实现了四种GPU 内存级别（GMLs）：

0 级：远程连接映射和连接计数存储在 CPU 内存中。
1 级：与 0 级类似，但假设所有源神经元在目标进程中都有镜像，从而避免了对实际使用的检查（构建更快，但可能导致更高的内存浪费）。
2 级：映射和连接索引存储在 GPU 内存中；连接计数在运行时计算。这是默认级别。
3 级：所有数据结构（包括连接计数）都存储在 GPU 内存中，最大限度地减少了 CPU-GPU 数据传输，但代价是更高的 GPU 内存使用量。

评估模型

多区域模型（MAM）：一个生物细节丰富的猕猴视觉相关皮层 32 个区域的模型（ $4.13 \times 10^6$ 个神经元， $24.2 \times 10^9$ 个突触）。该模型具有复杂的层次化连接，并使用点对点通信进行了模拟。
可扩展平衡网络：一个具有固定入度连接的兴奋性和抑制性神经元随机网络，旨在评估弱扩展性能。该模型在多达 1,024 个 GPU 上使用集体通信进行了模拟。

关键结果

网络构建性能

与之前的“离岸”（offboard，基于 CPU）方法相比，"onboard"GPU 构建方法显示出显著的速度提升：

MAM 模拟：网络构建时间从 686.0 秒（offboard）减少到 55.5 秒（onboard），实现了 12.4 倍 的加速。
- 局部连接创建实现了 20 倍 加速。
- 远程连接创建实现了 9 倍 加速。
- 神经元/设备创建和模拟准备分别实现了 350 倍 和 50 倍 的加速。
可扩展平衡网络：该方法成功在 1,024 个 GPU（256 个节点）上构建了高达 2.304 亿 个神经元和 2.59 万亿 个突触的网络。

状态传播与扩展性

MAM：状态传播时间（以实时因子衡量）在 offboard 和 onboard 版本之间保持相当（约 15–16），表明构建优化并未对模拟动力学产生负面影响。
平衡网络：该系统展示了高达 1,024 个 GPU 的弱扩展性。
- 内存效率：GPU 内存 0 级允许模拟扩展到 4,096 个节点，而不会超过 NVIDIA A100 GPU（64 GB）的内存限制。更高的内存级别（2 级和 3 级）提供了更快的构建和模拟速度，但在较低的节点数下达到内存限制（3 级约为 3,072 个节点）。
- 性能：在平衡网络中禁用脉冲记录将状态传播时间减少了约 20%。

验证

新的构建方法针对之前的 offboard 版本和基于 CPU 的 NEST 模拟器进行了验证。尽管由于新算法导致随机数生成序列发生变化，但脉冲活动的统计特性（发放率、脉冲间间隔的变异系数以及成对 Pearson 相关系数）得以保留，证实了模拟的生物学有效性。

意义与主张

该论文声称，这项工作提供了首个能够扩展至整个计算集群（多达数千个 GPU）同时存储单个突触信息的基于 GPU 的 SNN 模拟软件。主要贡献包括：

可扩展构建：一种新颖的算法，直接在 GPU 内存中构建网络连接，消除了 CPU-GPU 传输瓶颈，并避免了构建阶段的 MPI 通信。
灵活性：支持点对点和集体 MPI 通信，允许适应不同的网络拓扑（层次化与随机/平衡）。
百亿亿级就绪：作者推断，他们的方法可以在即将到来的 JUPITER 百亿亿级超级计算机上模拟 $2 \times 10^{10}$ 个神经元和 $10^{14}$ 个突触的网络。这一规模在保持单个突触分辨率的同时，接近人类皮层的连接度。
效率：通过 GML 系统优化内存使用，该方法使得在现有硬件上模拟更大的网络成为可能（例如，将 MAM 从 32 个 GPU 减少到 8 个 GPU 即可运行），并为利用未来百亿亿级系统的全部容量提供了一条途径。

作者总结认为，这种方法解决了分布式模拟中脉冲通信的关键瓶颈，并确立了 NEST GPU 作为现代 HPC 架构上大规模、生物细节丰富的神经模拟的参考平台。

Scalable Construction of Spiking Neural Networks using up to thousands of GPUs