POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

本文提出了 POET-X,一种基于正交变换的内存高效大语言模型训练框架,它在保持原有 POET 方法训练稳定性和泛化能力的同时,显著降低了计算开销与显存占用,从而实现了在单张 GPU 上预训练十亿参数级模型。

Zeju Qiu, Lixin Liu, Adrian Weller, Han Shi, Weiyang Liu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 POET-X 的新方法,它的目标是让训练超大型人工智能(大语言模型,LLM)变得更省钱(省显存)且更快

为了让你轻松理解,我们可以把训练大模型想象成在厨房里做一道极其复杂的“满汉全席”

1. 背景:原来的困境(POET 的烦恼)

  • 大模型就像满汉全席:现在的 AI 模型(比如 Llama-8B)有几十亿个“参数”,就像做这道菜需要几十亿种食材和步骤。
  • 原来的方法(AdamW):就像传统的厨师,每做一步都要把所有食材都摆在案板上,还要把每一步的笔记都记下来,生怕忘了怎么回头修改。这导致厨房(GPU 显存)瞬间被塞爆,连转身都困难,甚至根本做不了(显存溢出 OOM)。
  • 之前的改进(POET):之前的 POET 方法提出了一种聪明的思路。它不直接修改所有食材,而是把食材放在一个特殊的旋转架上。通过旋转这个架子(正交变换),就能达到同样的效果。这就像是用一个旋转烤架代替了巨大的案板,理论上更稳定,不容易把菜做坏(训练更稳定)。
    • 但是:原来的 POET 虽然思路好,但计算过程太繁琐。它为了旋转架子,需要不断地把整个架子拆下来、转过去、再装回去,还要把中间产生的废料(中间数据)堆满厨房。结果就是:虽然架子变小了,但厨房还是被塞满了,而且转得慢吞吞。

2. 核心创新:POET-X 的“魔法”

POET-X 就是为了解决“转得慢、占地方”的问题而生的。它做了三个关键的“魔法”升级:

魔法一:从“搬砖”变成“看图纸”(输入中心化)

  • 旧做法:每次旋转,都要把整面墙(权重矩阵)搬来搬去,非常累且占地方。
  • POET-X:它不再搬墙,而是只盯着进厨房的食材(输入数据)。它告诉旋转架:“你只需要根据进来的食材怎么动,你就怎么动。”
  • 比喻:就像以前你要把整个旋转烤架拆下来清洗,现在你只需要在烤架旁边放个感应器,食材进来时自动调整角度。省去了搬运整面墙的力气,厨房瞬间宽敞了。

魔法二:把“大旋转”拆成“小积木”(分块并行)

  • 旧做法:原来的旋转架是一个巨大的整体,转动一次要很久。
  • POET-X:它把巨大的旋转架拆成了很多个独立的小积木块(分块稀疏结构)。
  • 比喻:以前是指挥一个巨大的合唱团一起唱歌,必须等所有人准备好才能开始。现在 POET-X 把合唱团分成很多个小队,每个小队自己唱自己的,互不干扰,最后拼起来效果一样。这样不仅速度快了,而且不需要一个巨大的舞台(显存)来容纳所有人。

魔法三:只记“上半部分”的笔记(高效参数化)

  • 旧做法:为了记录旋转的角度,POET 需要记下所有数字(包括重复的)。
  • POET-X:它发现这些数字里有一半是重复的(对称的)。于是它只记上半部分,下半部分直接推算出来。
  • 比喻:就像以前记日记要写两遍“今天天气很好”,现在 POET-X 只写一遍,另一半直接复制。这直接省了一半的笔记本空间(显存)

3. 成果:单卡跑通“满汉全席”

通过这三板斧,POET-X 带来了惊人的效果:

  1. 省空间:它把显存占用减少了 3 倍
    • 现实意义:以前训练一个 80 亿参数(Llama-8B)的模型,需要好几张昂贵的显卡,甚至根本跑不起来。现在,一张普通的 NVIDIA H100 显卡就能轻松搞定,甚至还能训练更大的 130 亿参数模型。
  2. 速度快:训练速度提升了 8 倍
    • 现实意义:以前需要跑几天的训练,现在可能几个小时就搞定。
  3. 效果好:它不仅省,而且做出来的“菜”味道更好(模型性能比标准的 AdamW 优化器更好)。

4. 总结

如果把训练大模型比作在拥挤的地铁里跳舞

  • AdamW 是那种需要巨大舞台、动作夸张的舞者,地铁(显存)根本装不下,直接把人挤爆。
  • 原来的 POET 是换了个轻便的舞步,但还在原地转圈,虽然不挤了,但转得太慢,效率低。
  • POET-X 则是学会了在拥挤的地铁车厢里跳街舞。它利用车厢的缝隙(分块),只动关键部位(输入中心化),动作精简(只记一半笔记),不仅能在狭小的空间里跳得飞快,而且舞姿(模型效果)还比那些大舞台上的舞者更优美。

一句话总结:POET-X 让普通人也能用单张显卡,像训练小模型一样轻松、快速地训练超大型 AI 模型,打破了“大模型必须用超级计算机”的魔咒。