Deep Hierarchical Learning with Nested Subspace Networks for Large Language Models

本文提出了一种名为嵌套子空间网络(NSNs)的新架构范式,通过重参数化线性层使其满足嵌套子空间属性,并结合不确定性感知目标实现联合优化,从而使得单一大型语言模型能够在推理时根据计算预算动态、连续地调整性能,在显著降低计算成本的同时保持高精度。

Paulius Rauba, Mihaela van der Schaar

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“嵌套子空间网络”(Nested Subspace Networks, 简称 NSNs)**的新方法,旨在解决大模型(如大型语言模型)在部署时面临的一个核心难题:如何在“模型有多聪明”和“运行有多快/多省电”之间灵活切换。

为了让你轻松理解,我们可以把大模型想象成一家拥有不同规模团队的咨询公司

1. 核心痛点:要么太贵,要么太笨

在现实生活中,我们常遇到这样的困境:

  • 简单问题(比如“今天天气怎么样”):你不需要动用整个专家团队,派一个实习生就能搞定。但如果必须用整个团队,既浪费钱又浪费时间。
  • 复杂问题(比如“诊断罕见病”):你必须动用所有专家,甚至需要最顶尖的教授。如果只派实习生,可能会出大错。

现有的方法有两个缺点:

  1. 静态压缩(像“剪发”):传统的做法是,为了省钱,直接给模型“剪头发”(剪掉一些神经元)。但这就像把一位全能专家强行降级成实习生。一旦剪了,他就再也变不回专家了。如果你明天需要他处理复杂任务,你就得重新招聘、重新培训(重新训练),成本极高。
  2. 动态网络(像“换人”):有些方法试图让模型在运行时自动切换,但它们通常像是一个个独立的“小模型”拼凑起来的。这就像你雇了 10 个不同专业的实习生,想用时临时拼凑。但这很难训练,而且很难直接套用在已经训练好的大模型上。

2. 解决方案:NSN 的“乐高积木”魔法

NSN 提出了一种全新的思路:不要剪头发,也不要拼凑,而是给模型装上一个“可调节的音量旋钮”。

核心比喻:一套“乐高积木”

想象大模型的内部结构是由一套乐高积木组成的。

  • 传统模型:积木是粘死的。你想变小,只能把积木砸碎(剪枝),或者重新买一套小的(蒸馏)。
  • NSN 模型:积木是嵌套的。
    • 最里面有一块核心积木(代表最简单的功能,比如只认“是/否”)。
    • 外面包裹着一层稍大的积木(在核心基础上增加了“颜色识别”)。
    • 再外面是更大的积木(增加了“形状识别”)。
    • 最外层是完整的巨型积木(拥有所有功能)。

关键点在于: 这些积木是完美嵌套的。

  • 当你只需要处理简单任务时,你只使用最里面的核心积木。模型变小了,速度变快了,但核心功能还在。
  • 当你遇到复杂任务时,你把外面的积木一层层加上去。模型变大了,能力变强了。
  • 最重要的是:你不需要重新训练!因为里面的核心积木在训练时就已经被优化好了,外面的积木只是在此基础上“锦上添花”。

3. 如何训练?“不确定性”的指挥家

既然要同时训练“核心积木”和“巨型积木”,怎么保证它们不吵架呢?

  • 难点:核心积木(低算力)很难学,容易犯错;巨型积木(高算力)很容易学,表现很好。如果把它们放在同一个训练池里,巨型积木的“高分”会掩盖核心积木的“低分”,导致核心积木学不好。
  • NSN 的妙招:作者引入了一位**“不确定性指挥家”**。
    • 这位指挥家会观察每个“积木层级”的表现。
    • 如果某个层级(比如核心积木)学得很吃力(不确定性高),指挥家就会降低它的权重,不让它拖后腿,同时给它更多的关注去改进。
    • 如果某个层级学得很好(不确定性低),指挥家就让它保持节奏。
    • 这样,模型就能同时学会所有层级的技能,而且层级之间是平滑过渡的。

4. 实际效果:像调光开关一样丝滑

论文通过实验证明,NSN 就像是一个平滑的调光开关,而不是只有“开/关”两个档位的开关。

  • 场景:假设你有一个巨大的语言模型(比如 Pythia-2.8B)。
  • 操作
    • 在电量充足时,你把“旋钮”拧到最大,模型全速运行,准确率 100%。
    • 在电量低时,你把“旋钮”拧到 50%。模型只用了 50% 的计算资源,但准确率只下降了 5%(比如从 90% 降到 85%)。
    • 在电量极低时,你拧到 20%。模型跑得飞快,虽然只能回答简单问题,但依然能工作。
  • 优势:你不需要为每个电量等级训练一个不同的模型。你只需要一个模型,就能应对所有情况。

5. 总结:为什么这很重要?

这项技术的核心突破在于:

  1. 即插即用:它可以像“外科手术”一样,直接应用到已经训练好的大模型上(比如 Llama, Gemma 等),不需要从头开始训练。
  2. 无缝切换:它提供了一条平滑的曲线,让你可以根据当下的资源(电池、网速、服务器负载),在“快”和“准”之间任意选择,而不是只有几个固定的选项。
  3. 未来展望:这意味着未来的 AI 助手,在手机上可以像“省电模式”一样运行,在服务器上可以像“超级计算机”一样运行,而它们本质上是同一个模型

一句话总结:
NSN 让大模型从“要么全有,要么全无”的僵化状态,进化成了像**智能手机的“性能模式”**一样,可以根据需求灵活调整,既省钱又高效,而且不需要重新发明轮子。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →