EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language… — 通俗解释

原作者： Arnab Sanyal, Gourav Datta, Prithwish Mukherjee, Sandeep P. Chinchali, Michael Orshansky

📖 1 分钟阅读☕ 轻松阅读

原作者： Arnab Sanyal, Gourav Datta, Prithwish Mukherjee, Sandeep P. Chinchali, Michael Orshansky

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你有一个巨大的图书馆（大型语言模型），你想把它装进背包里，以便在徒步旅行时阅读（在智能手机或小型机器人等边缘设备上）。问题是，这个图书馆太重太大，根本装不进背包；而且即使能装下，当你试图一本一本地把书拿出来阅读时，你的手臂也会因为太累而酸痛。

这篇论文介绍了一种名为EntroLLM的新方法来解决这个问题。这就像是一个三步魔术，旨在让图书馆变得更小、更易于携带，同时不丢失其中的任何故事。

通常，当人们试图缩小这些图书馆时，他们只是将书中的数字四舍五入以使其更简单（例如将 3.14159 四舍五入为 3.14）。这被称为量化。然而，标准方法往往使数字看起来过于“平坦”和随机，难以进一步压缩。

作者的技巧是单独查看每一章（或“层”）。根据该特定章节中数字的分布情况，他们选择一种特殊的四舍五入方式：

通过这样做，图书馆中的数字变得“尖峰”化。想象一下山脉，其中大多数山峰紧密地聚集在中间，极少有极端的异常值。这种“尖峰”形状比平坦、随机的地形更容易压缩。

一旦数字被排序成这种“尖峰”模式，作者就会使用一种称为霍夫曼编码的技术。

这就像为图书馆编写一个秘密代码。在英语中，字母"E"出现的频率非常高，因此你可能会决定用一个点（•）来代表"E"，而像"Z"这样罕见的字母则获得一个长代码（•••••）。

这显著缩小了图书馆的总大小。论文声称，这一步骤使压缩效果比当前顶级方法提高了7 到 11 倍。这就像将一本 100 页的书变成一本 10 页的小册子，而故事内容保持不变。

这里是棘手之处：通常，要阅读一个秘密代码，你必须从头到尾逐字阅读。如果你有一个巨大的图书馆，这将耗时极长，而且你的背包（设备）会因等待而卡住。

作者意识到，尽管代码很短，但书籍仍然是按大块（张量）组织的。因此，他们将图书馆切割成许多独立的、互不干扰的部分。

这意味着，尽管图书馆变得微小且经过压缩，但设备在需要时几乎可以瞬间“ unpack"（解包）书籍，从而使阅读速度非常快。

作者在小型设备（NVIDIA JETSON，这是一种强大但微小的计算机）上，针对三种不同大小的“图书馆”（AI 模型）测试了这种方法。

简而言之：EntroLLM 是一种将巨大的 AI 大脑装入微小背包的方法，它通过将数据组织成“尖峰”形状、用超高效的缩写书写，并让一群工人同时解包所有数据来实现。这使得在小型、电池供电的设备上运行智能 AI 成为可能，而无需超级计算机。

EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices