Composer: A Search Framework for Hybrid Neural Architecture Design

本文提出了名为 Composer 的模块化混合神经网络架构搜索框架,通过在小规模上探索并借助扩展策略将最优架构放大,成功发现了在 350M 至 3B 参数规模下性能超越 Llama 3.2、显著提升下游任务准确率并优化训练与推理效率的新型混合大语言模型架构。

Bilge Acun, Prasoon Sinha, Newsha Ardalani, Sangmin Bae, Alicia Golden, Chien-Yu Lin, Meghana Madhyastha, Fei Sun, Neeraja J. Yadwadkar, Carole-Jean Wu

发布于 2026-03-12
📖 2 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Composer(作曲家) 的新框架,它的任务是自动设计更聪明、更高效的大型语言模型(LLM)的“骨架”

为了让你轻松理解,我们可以把构建一个大语言模型想象成组建一支超级乐队,而 Composer 就是一位天才的选角导演兼编曲家

1. 背景:为什么需要 Composer?

现状:
目前最流行的模型(比如 Llama 3.2)就像一支标准的交响乐团。它的结构非常固定:每一层都是“一个小提琴手(注意力机制/Attention)”接着“一个钢琴手(多层感知机/MLP)”,如此循环往复(1:1 的比例)。虽然这很有效,但大家发现,如果打破这种死板的顺序,或者改变乐器的比例,可能会弹出更美妙的曲子。

问题:
但是,手动去尝试成千上万种“乐器排列组合”(比如:先放两个小提琴,再放三个钢琴,中间穿插鼓手……)是不可能完成的任务

  • 试错成本太高: 训练一个模型就像让乐队排练一整年,太烧钱、太耗时。
  • 空间太大: 哪怕只有 32 层,可能的排列组合就有几十亿种,人脑根本算不过来。

Composer 的解决方案:
Composer 就像一个智能的“模拟排练室”。它不需要真的让乐队排练一整年,而是通过一套科学的流程,在小规模的模拟中快速找到最佳方案,然后把这个方案“放大”到真正的超级乐队规模。


2. Composer 是如何工作的?(四大核心步骤)

Composer 的工作流程分为四个阶段,我们可以把它比作寻找完美乐队的四个步骤

第一步:搜索引擎 (Search Engine) —— “在小型排练室试错”

  • 比喻: 导演不会直接找 1000 人的大乐队排练,而是先找几个乐手在小房间里试不同的组合。
  • 做法: Composer 会尝试各种“乐器比例”(比如 1 个小提琴配 2 个钢琴,或者反过来)。它使用了两种聪明的策略:
    • 一次性搜索 (One-Shot): 快速试几个短小的片段。
    • 增量搜索 (Incremental): 像搭积木一样,先搭好底部,再一层层往上加,每次只微调新加的部分。
  • 关键点: 它发现,“少一点小提琴,多一点钢琴”(1:2 的比例) 往往比传统的 1:1 比例效果更好,而且更省资源。

第二步:评估器 (Evaluator) —— “用简单的测试题筛选”

  • 比喻: 在正式演出前,导演需要快速判断哪个组合好听。如果让乐队去唱高难度的歌剧(用海量真实数据训练),太慢了。
  • 做法: Composer 发明了一种**“速成测试题”(比如一个叫 MAD 的合成数据集)。这些题目虽然简单(像是让模型玩文字游戏),但能非常准确地预测出这个组合在真正的大舞台**上表现如何。
  • 发现: 用这种“速成题”筛选出来的乐队,在真正的大规模训练中也表现优异,而且速度快了 8 倍以上。

第三步:聚合器 (Aggregator) —— “去粗取精,合成最佳版本”

  • 比喻: 经过几十轮试错,导演手里有 100 个不错的乐队方案。有的方案开头好,有的结尾好。导演需要把这些方案的优点拼凑成一个完美的“终极乐队”。
  • 做法: Composer 使用一种**“投票机制”(聚类算法)。它不看某一个特定的完美方案,而是看大多数**表现好的方案在每一层都用了什么乐器。如果 80% 的好方案在第三层都用了“钢琴”,那最终方案第三层就定“钢琴”。
  • 效果: 这就像把大家的优点集合起来,消除了个别方案的偶然失误(噪音),得到了一个最稳健的架构。

第四步:外推器 (Extrapolator) —— “从小房间放大到体育馆”

  • 比喻: 现在导演手里有一个在“小房间”里表现完美的 6 人乐队方案。他需要把它变成能容纳 1000 人的“体育馆级”大乐队。
  • 做法: 有两种放大方法:
    • 拉伸 (Stretching): 保持乐器的排列顺序不变,只是把每个乐器的数量按比例增加(比如把 1 个钢琴变成 10 个钢琴)。
    • 堆叠 (Stacking): 把那个完美的 6 人小乐队当作一个“模块”,直接复制粘贴,堆叠成一个大乐队。
  • 结果: 无论用哪种方法,Composer 都能把小规模的发现成功应用到1000 倍大的模型上。

3. 成果:Composer 发现了什么?

经过这一套流程,Composer 发现了一种名为 "Composite"(复合架构) 的新模型设计,它打败了目前的冠军 Llama 3.2:

  1. 更聪明(性能更强): 在同样的训练成本下,它的“考试成绩”(验证集损失)更低,在理解语言、逻辑推理等任务上,准确率平均提高了 2% - 2.1%
  2. 更省钱(效率更高):
    • 训练更快: 训练速度提升了 1.25 倍
    • 推理更轻: 生成文字时的延迟降低了 1.33 倍
    • 内存更小: 它需要的“记忆空间”(KV Cache)减少了 1.69 倍,这意味着在同样的硬件上能处理更长的对话。
  3. 结构不同: 它不再死板地 1:1 排列,而是采用了 1 个注意力层 : 2 个 MLP 层 的比例,并且巧妙地安排了它们的顺序(比如开头多用注意力,结尾多用 MLP),这让模型既懂上下文,又擅长处理细节。

总结

Composer 就像一位不知疲倦的 AI 建筑师。它不再依赖人类专家的直觉去“猜”什么样的模型结构最好,而是通过**“小规模模拟 -> 快速测试 -> 智能聚合 -> 放大应用”**的科学流程,自动发现了比人类设计更优的模型架构。

这不仅让 AI 变得更聪明,还让训练和运行这些 AI 变得更便宜、更快速。这标志着我们在构建下一代人工智能模型时,从“手工打造”迈向了“自动化设计”的新时代。