Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

该论文通过实验发现混合专家(MoE)模型中专家层与注意力层的计算分配比例遵循幂律关系,并据此提出了扩展的 Chinchilla 缩放定律,为在固定计算预算下优化 MoE 模型设计提供了明确的理论公式与实践指南。

Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要解决了一个大模型设计中的“分钱”问题:当你有一笔固定的预算(计算资源)时,应该花多少钱在“注意力机制”上,又该花多少钱在“专家网络”上?

为了让你更容易理解,我们可以把训练一个大语言模型(LLM)想象成经营一家超级繁忙的跨国咨询公司

1. 核心角色:咨询公司里的两支队伍

在这个公司里,有两类核心员工,他们的工作性质完全不同:

  • 注意力组(Attention Team):像“项目经理”或“外交官”。
    • 工作: 他们负责把整个文档里的所有信息串联起来,理解上下文,比如“这句话里的‘它’指的是上一段的哪个词”。
    • 特点: 无论公司多大,每个项目都需要他们全程参与,处理全局信息。
  • 专家组(Expert Team):像“技术顾问”或“特种部队”。
    • 工作: 他们负责处理具体的、高难度的专业问题。比如遇到代码问题找代码专家,遇到法律条文找法律专家。
    • 特点(MoE 的核心): 这是一个“混合专家”(Mixture-of-Experts)架构。公司雇了很多专家(比如 100 个),但处理每一个具体问题时,只激活其中几个(比如只激活 3 个)。
    • 优势: 这样公司可以拥有巨大的知识库(参数多),但每次干活时只付几个人的工资(计算量小),非常省钱。

2. 遇到的问题:预算有限,怎么分配?

以前,大家觉得只要把公司开得越大(增加参数),或者请越多的专家,模型就越聪明。但这就引出了一个新问题:

如果你手里的总预算(GPU 算力)是固定的,你是该多雇几个“项目经理”(增加注意力层的计算量),还是多雇几个“技术顾问”(增加专家层的计算量)?

  • 传统做法: 大家通常直接照搬旧公司的架构,或者凭感觉调整。
  • 本文的发现: 这种“拍脑袋”的做法是错的!最优的分配比例不是固定的,它会随着公司规模(预算)的变化而变化。

3. 核心发现:一个神奇的“动态平衡公式”

作者通过大量的实验(就像做了无数次模拟经营游戏),发现了一个**“黄金法则”**:

  • 当公司还很小(预算少)时:
    你应该把大部分钱花在**“项目经理”(注意力组)**身上。因为小公司首先要保证大家能听懂彼此在说什么,全局理解最重要。这时候,专家组稍微少一点没关系。

    • 比喻: 小团队刚起步,先保证沟通顺畅,别急着招太多细分领域的专家。
  • 当公司变得很大(预算多)时:
    你应该把越来越多的钱花在**“技术顾问”(专家组)**身上。随着模型变大,全局沟通的能力已经足够强了,这时候提升“专业深度”带来的收益更大。

    • 比喻: 大公司已经很有名了,这时候招更多顶尖专家来解决复杂难题,比再招几个项目经理更能提升业绩。

更有趣的是,这个“花钱比例”还取决于“稀疏度”(Sparsity):

  • 稀疏度低(激活的专家多): 就像公司里大部分专家都能干活,这时候可以大胆地多给专家组预算。
  • 稀疏度高(激活的专家少): 就像公司里只有极少数专家能干活,这时候如果给专家组太多钱,反而浪费,不如多给注意力组。

4. 这篇文章的“绝招”:一张地图

以前,工程师们设计模型像是在盲人摸象,不知道钱花在哪最值。

这篇文章给工程师们提供了一张**“动态地图”**(一个数学公式):

如果你知道你的总预算是多少,以及你想让多少专家参与工作,这张地图就能直接告诉你:应该把多少比例的钱花在“注意力”上,多少比例花在“专家”上,才能让模型最聪明、最省钱。

5. 总结:这对我们意味着什么?

  • 对工程师: 以后设计大模型,不再需要盲目试错。只要算出这个比例,就能在同样的显卡预算下,训练出性能更强的模型。
  • 对大众: 这意味着未来的 AI 会更聪明,而且可能更便宜、更省电。因为资源没有被浪费在不合理的架构设计上。

一句话总结:
这就好比你在装修房子,以前大家觉得“多买家具”就行;现在这篇论文告诉你,随着房子变大,你应该把更多的预算从“买普通家具”(注意力)转移到“请专业设计师”(专家)身上,而且这个比例是有科学公式可以计算的,这样你的房子(AI 模型)才会住得最舒服。