原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明
想象一下试图在计算机上模拟人脑。人脑是一座拥有约 860 亿个神经元的庞大城市,每个神经元就像一座房子,每秒向成千上万座其他房子发送微小的电“短信”(称为脉冲)。要模拟这一过程,你需要一台由数千张图形处理器(GPU)协同工作的超级计算机。
问题在于,这些 GPU 就像岛屿。它们速度很快,但彼此之间难以直接沟通。如果一个岛屿想要向另一个岛屿发送消息,“邮差”(通信系统)就必须来回奔跑,这会拖慢一切。
本文介绍了一种全新的、更快速的方法来在模拟开始之前构建这些连接的“地图”,从而使 GPU 能够在模拟过程中避免陷入交通拥堵。
以下是他们如何做到的简要说明:
1. 旧方法:在主陆地上构建地图
以前,当科学家想要模拟脑网络时,他们首先会在缓慢的中央计算机(CPU)上构建“连接地图”。然后,他们必须将这张巨大的地图复制到快速的 GPU 上。
- 类比:想象你在组织一场盛大的派对。在旧方法中,你在厨房(CPU)的一张纸上写下每一位客人的名字以及他们认识谁,然后跑到每一个房间(GPU)去分发这份名单的副本。光是准备阶段就花费了很长时间。
2. 新方法:在房间内部构建地图
作者们开发了一种新方法,让每个 GPU 直接在其自己的内存中构建其“专属”的连接地图部分,而无需等待中央计算机。
- 类比:现在,不再需要在厨房里写名单,每个房间都有自己的记事本。派对一开始,每个房间里的客人就在那里直接写下他们认识的人。无需再来回跑向厨房。
- 结果:这种“板载”构建方式比旧方法快 10 倍以上。在一次测试中,构建网络仅耗时 55 秒,而旧方法则需要近 12 分钟。
3. 两种发送消息的方式
一旦地图构建完成,GPU 在模拟过程中就需要交换“短信”(脉冲)。本文针对不同的网络组织方式,测试了两种不同的策略:
策略 A:直接电话呼叫(点对点)
- 工作原理:如果 GPU #1 中的某个神经元需要与 GPU #2 中的特定神经元交谈,它会直接呼叫该特定 GPU。
- 适用场景:连接不均匀或具有特定性的网络(例如真实的大脑,某些区域彼此交流频繁,但并非与所有人交流)。
- 论文主张:他们利用这种方法对猴子的视觉皮层模型(包含 32 个不同区域)进行了测试。结果完美运行,证明了新的建图方法与复杂、真实的脑结构是兼容的。
策略 B:群聊(集体通信)
- 工作原理:GPU 不是呼叫个人,而是将消息一次性向一整组 GPU 广播。组内的每个人都会听到喊声,并检查消息是否属于自己。
- 适用场景:巨大的随机网络,其中每个人都在与所有人交谈(例如一个平衡的群体)。
- 论文主张:他们在扩展到1,024 张 GPU的庞大“平衡网络”上测试了这种方法。这是一个协同工作的显卡数量巨大的规模。他们表明,即使使用如此多的显卡,系统也能平稳扩展而不会崩溃。
4. “内存层级”技巧
GPU 拥有大量内存,但并非无限。存储数十亿个神经元的连接地图需要占用大量空间。
- 类比:想象你有一张小桌子(GPU 内存)和一个巨大的仓库(CPU 内存)。
- 解决方案:作者们创建了四个“层级”的组织方式。
- 层级 0:将地图保存在仓库(CPU)中,仅将所需内容带到桌子上。这节省了桌面空间,但获取速度较慢。
- 层级 3:将桌子上填满所有内容。这是最快的,但需要更大的桌子。
- 论文主张:他们表明,通过选择合适的层级,他们可以在拥有 4,096 张 GPU 的Leonardo Booster超级计算机上运行模拟,甚至预测即将到来的JUPITER超级计算机可以模拟拥有2.3 亿个神经元和 2.5 万亿个突触的网络。这大致相当于人类大脑皮层的大小!
成就总结
- 速度:通过在图形卡上直接构建网络地图,他们将脑模拟的“设置”阶段加快了 10 倍。
- 规模:他们证明了该方法可同时支持多达 1,024 张 GPU。
- 灵活性:他们展示了两种不同的通信处理方式(直接呼叫与群聊),以便科学家能为其特定的脑模型选择最佳方法。
- 面向未来:他们的方法旨在适用于下一代“exascale"(百亿亿次)超级计算机,这些计算机将具备足够的算力,能够模拟包含单个突触细节的完整人脑。
简而言之,他们不仅让模拟运行得更快,还为数据构建了一个更好的“道路系统”,使超级计算机在比赛甚至开始之前就不会陷入交通拥堵。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。