Cross-Tokenizer LLM Distillation through a Byte-Level Interface

该论文提出了一种名为“字节级蒸馏”(BLD)的简单有效方法,通过在字节层面构建教师与学生模型间的通用接口,成功实现了跨分词器知识蒸馏,并在多项基准测试中展现出与更复杂方法相当甚至更优的性能。

Avyav Kumar Singh, Yen-Chen Wu, Alexandru Cioba, Alberto Bernacchia, Davide Buffelli

发布于 2026-04-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个大语言模型(LLM)领域里非常棘手的问题:如何让两个“语言不通”的老师教同一个学生?

为了让你轻松理解,我们可以把整个过程想象成**“跨国翻译与教学”**的故事。

1. 背景:为什么这是个难题?

想象一下,你有一个超级聪明的老师(Teacher Model),他精通一种特殊的“方言”(比如使用 Qwen 的分词器,把文字切成特定的词块)。
现在,你想培养一个学生(Student Model),但这个学生只懂另一种完全不同的“方言”(比如使用 Llama 的分词器,切词方式完全不同)。

  • 传统方法的困境:
    以前的蒸馏(Distillation,即让学生模仿老师)就像让老师直接给学生讲课。但问题是,老师说的“苹果”在学生听来可能是“红 + 果 + 子”三个词,或者完全不同的符号。
    这就好比老师用中文写教案,学生却只懂法语。老师直接输出“概率分布”(比如:下一个词是“苹果”的概率是 80%),学生一看:“等等,我的字典里根本没有‘苹果’这个词,只有‘红果’,我该怎么学?”
    为了解决这个问题,以前的方法不得不搞很多复杂的“翻译对照表”或者“强行对齐”,既麻烦又容易出错,就像试图把中文成语硬生生翻译成法语,往往意思就变了。

2. 核心创意:寻找“通用语”——字节(Byte)

这篇论文提出了一个绝妙的想法:既然大家说的“方言”(分词)不一样,那我们就退回到最基础的“字母”层面来交流。

在计算机里,所有的文字(无论是中文、英文还是表情符号),最底层都是由 0 和 1 组成的,或者说是 字节(Byte)

  • 比喻: 想象所有语言最终都是由 256 种基础积木(字节) 拼成的。
    • 老师的“苹果” = 积木 A + 积木 B + 积木 C
    • 学生的“红果” = 积木 A + 积木 B + 积木 C
    • 虽然他们给这堆积木起的名字(Token)不同,但积木本身是一样的

3. 新方法:BLD(字节级蒸馏)

作者提出的 BLD(Byte-Level Distillation) 方法,就像是在老师和学生之间架起了一座**“积木桥”**。

具体步骤如下:

  1. 老师“降维”输出:
    老师不再直接说“下一个词是苹果”,而是把“苹果”拆解成它最底层的字节概率

    • 比喻: 老师不再说“我要造一辆车”,而是说“我要先放一个轮子,再放一个轮子,再放一个车身……"。无论学生怎么理解“车”,他都能听懂“轮子”和“车身”的指令。
  2. 学生“加装”接收器:
    在学生模型旁边,临时加了一个轻量级的“字节翻译头”

    • 比喻: 给学生的耳朵上戴了一个特殊的助听器,让他能直接听到老师发出的“积木指令”(字节概率),而不是被老师那些复杂的“方言词汇”绕晕。
  3. 共同学习:
    学生一边听老师的“积木指令”(字节级知识),一边自己尝试用“积木”拼出答案。

    • 在这个过程中,学生不仅学到了知识,还学会了如何把老师的思想用自己的“方言”表达出来。
  4. 拆掉翻译器:
    等学生学成之后,把这个临时的“字节翻译头”拆掉。

    • 比喻: 学生已经内化了老师的思维,现在他可以直接用自己的“方言”流利地说话了,不再需要那个助听器。

4. 效果如何?

作者做了很多实验(比如把 Llama 模型的知识教给 Qwen 模型,或者把大模型教给小模型):

  • 简单却强大: 这个方法不需要搞那些复杂的“翻译对照表”,直接通过“积木”交流,效果竟然比很多花里胡哨的高级方法还要好,或者至少不相上下。
  • 并非万能药: 虽然这个方法很厉害,但作者也诚实地说,它并没有在所有考试中都拿第一
    • 比喻: 就像有的学生擅长数学,有的擅长语文。虽然用了“积木教学法”,但在某些特定任务(比如复杂的指令遵循)上,学生还是有点跟不上。这说明“跨语言教学”依然是一个很难的课题,还没有完美的终极方案。

总结

这篇论文的核心思想就是:当两个模型“语言不通”时,不要强行翻译,而是回到最原始的“字节”层面进行知识传递。

这就好比两个不同国家的人要交流,与其费力去翻译复杂的成语,不如直接指着地上的石头、树木、水流(最基础的字节),大家都能看懂。这种方法简单、直接,而且非常有效,为未来让不同架构的 AI 模型互相学习提供了一条新路。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →