原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你有一个巨大的图书馆(大型语言模型),你想把它装进背包里,以便在徒步旅行时阅读(在智能手机或小型机器人等边缘设备上)。问题是,这个图书馆太重太大,根本装不进背包;而且即使能装下,当你试图一本一本地把书拿出来阅读时,你的手臂也会因为太累而酸痛。
这篇论文介绍了一种名为EntroLLM的新方法来解决这个问题。这就像是一个三步魔术,旨在让图书馆变得更小、更易于携带,同时不丢失其中的任何故事。
1. “尖峰”排序(混合量化)
通常,当人们试图缩小这些图书馆时,他们只是将书中的数字四舍五入以使其更简单(例如将 3.14159 四舍五入为 3.14)。这被称为量化。然而,标准方法往往使数字看起来过于“平坦”和随机,难以进一步压缩。
作者的技巧是单独查看每一章(或“层”)。根据该特定章节中数字的分布情况,他们选择一种特殊的四舍五入方式:
- 无符号量化:就像只计算正向的步数。
- 非对称量化:就像移动零点以更好地适应数字。
通过这样做,图书馆中的数字变得“尖峰”化。想象一下山脉,其中大多数山峰紧密地聚集在中间,极少有极端的异常值。这种“尖峰”形状比平坦、随机的地形更容易压缩。
2. “缩写”字典(霍夫曼编码)
一旦数字被排序成这种“尖峰”模式,作者就会使用一种称为霍夫曼编码的技术。
这就像为图书馆编写一个秘密代码。在英语中,字母"E"出现的频率非常高,因此你可能会决定用一个点(•)来代表"E",而像"Z"这样罕见的字母则获得一个长代码(•••••)。
- 因为“尖峰”排序使得某些数值出现得非常频繁,代码会给这些常见数字非常短、非常小的标签。
- 罕见的数字则获得更长的标签。
这显著缩小了图书馆的总大小。论文声称,这一步骤使压缩效果比当前顶级方法提高了7 到 11 倍。这就像将一本 100 页的书变成一本 10 页的小册子,而故事内容保持不变。
3. “团队阅读”策略(并行解码)
这里是棘手之处:通常,要阅读一个秘密代码,你必须从头到尾逐字阅读。如果你有一个巨大的图书馆,这将耗时极长,而且你的背包(设备)会因等待而卡住。
作者意识到,尽管代码很短,但书籍仍然是按大块(张量)组织的。因此,他们将图书馆切割成许多独立的、互不干扰的部分。
- 不是让一个人按顺序阅读整个代码,而是雇佣一个阅读团队(并行线程)。
- 每位读者抓取图书馆的不同部分,并同时解码他们的部分。
- 由于这些部分是独立的,它们无需相互等待。
这意味着,尽管图书馆变得微小且经过压缩,但设备在需要时几乎可以瞬间“ unpack"(解包)书籍,从而使阅读速度非常快。
结果:更轻、更快的背包
作者在小型设备(NVIDIA JETSON,这是一种强大但微小的计算机)上,针对三种不同大小的“图书馆”(AI 模型)测试了这种方法。
- 存储:与标准的 8 位模型相比,他们节省了多达30%的空间;与 4 位模型相比,节省了65%。
- 速度:由于需要移动的数据更少,设备的推理(思考)速度提高了30% 到 146%。
- 准确性:“故事”(AI 的回答)与原始未压缩的图书馆一样准确。
简而言之:EntroLLM 是一种将巨大的 AI 大脑装入微小背包的方法,它通过将数据组织成“尖峰”形状、用超高效的缩写书写,并让一群工人同时解包所有数据来实现。这使得在小型、电池供电的设备上运行智能 AI 成为可能,而无需超级计算机。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。