原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象一下,你正在尝试撰写一个长篇且复杂的故事。你有两种方法,但两者都存在一个重大缺陷:
- “逐字写作”的作家(自回归模型): 这位作家极其聪明且精准。他们在写下每一个字之前都会仔细思考,确保故事逻辑完美。然而,他们速度很慢。他们必须写完一个字,查阅笔记,思考下一个字,然后写下它。他们无法加快速度,因为害怕犯错。
- “批量写作”的作家(扩散模型): 这位作家试图一次性写完整个段落。他们非常快!但由于他们同时猜测多个单词而没有仔细检查每一个,他们经常犯逻辑错误、偏离情节,或者写出毫无意义的文字。
Orthrus 是一个新框架,它结合了两者的优点。它创建了一个“双声”系统,让你能够一次性写完整个段落,同时不失去谨慎作家那样的精准度。
以下是其工作原理,使用一个简单的类比:
“建筑师与建筑工”类比
将 AI 模型想象成一个建筑工地,那里有两名工人:建筑师和建筑工。
- 建筑师(冻结的大语言模型): 这是原始、经过高度训练且超级聪明的模型。他们是专家,确切知道建筑物应该是什么样子。他们是“冻结”的,意味着在此过程中他们不会改变主意或学习新事物;他们只提供完美的蓝图。
- 建筑工(扩散模块): 这是团队中新加入的一名轻量级工人。他们的工作是快速铺设砖块(token)。
他们如何协同工作:
- 设定场景(预填充): 首先,建筑师阅读整个提示(指令),并构建一个完美、高保真的“记忆地图”(称为KV 缓存)。这张地图包含了构建故事其余部分所需的所有上下文。
- 并行冲刺(生成): 不是由建筑师一块砖一块砖地铺设,建筑工查看建筑师的地图,并尝试一次性铺设一整排砖块(例如 32 块)。
- 安全检查(共识): 这是神奇之处。在建筑工的工作被接受之前,建筑师会立即检查建筑工的这一批成果。
- 如果建筑工根据建筑师的完美逻辑猜对了下一个词,建筑师会说:“太棒了!保留它!”
- 如果建筑工猜错了,建筑师会说:“不行,那不对”,并立即修正那个特定的词。
- 该过程对下一批重复进行。
为什么这很重要?
- 无内存浪费: 通常,如果有两个模型在工作,你需要两套内存笔记。Orthrus 很聪明,因为建筑工和建筑师共享完全相同的记忆地图。建筑工不需要制作自己的笔记;他们只需查看建筑师的。这节省了巨大的计算机内存。
- 无质量损失: 因为建筑师(原始智能模型)对每个词拥有最终决定权,所以故事的质量与建筑师逐字撰写时一样好。不存在“漂移”或质量下降。
- 巨大速度提升: 通过让建筑工一次性铺设 32 块砖,并仅进行即时检查,Orthrus 比缓慢的逐字方法快高达 7.8 倍。
结果
该论文在解决数学问题(MATH-500)、编写代码和回答逻辑谜题等困难任务上测试了这种方法。
- 速度: 它比标准模型快得多。
- 准确性: 它与原始缓慢模型的准确性一样高。
- 效率: 它仅需训练模型参数的一小部分(约 16%),使其成本低廉且易于添加到现有 AI 系统中。
简而言之,Orthrus 就像雇佣了一位速读者,能瞬间猜出故事的接下来 30 个词,但旁边站着一位严格的编辑,会立即纠正任何错误。其结果是,故事以闪电般的速度写成,同时保持完全准确。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。