Seq vs Seq: An Open Suite of Paired Encoders and Decoders

该论文推出了名为 Ettin 的开源模型套件,包含从 1700 万到 10 亿参数不等的配对编码器与解码器模型,通过统一训练配方在各自任务上实现了超越 ModernBERT、Llama 3.2 等现有模型的最先进性能,并证实了专用架构在分类检索与生成任务中优于跨架构适配。

Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在大语言模型(LLM)的世界里,举办了一场**“双胞胎大比拼”**。

想象一下,大语言模型主要有两种“性格”:

  1. 解码器(Decoder):像是一个**“滔滔不绝的作家”**。它擅长接龙写故事、写代码、生成创意内容。现在的 ChatGPT、Llama 都是这种类型。
  2. 编码器(Encoder):像是一个**“专注的阅读理解专家”**。它擅长做选择题、判断文章情感、搜索信息、分类文档。以前的 BERT 就是这种类型。

过去的问题:
以前大家觉得“作家”太厉害了,连“阅读理解”也能做(只要多训练一下),所以“专家”型模型就被冷落了。但是,之前的比较很不公平:拿一个刚出生的“作家”去和一个训练了很久的“专家”比,或者拿不同教材、不同训练方法的模型来比,这就好比拿“刚学会走路的孩子”和“奥运冠军”比跑步,结果当然没意义。

这篇论文做了什么?(ETTIN 套件)
约翰斯·霍普金斯大学的研究团队(Orion Weller 等人)决定**“一视同仁”。他们造了一组双胞胎模型**(叫 ETTIN,名字来自北欧神话里的双头巨人),这组双胞胎:

  • 吃一样的饭(使用完全相同的数据集,高达 2 万亿个词)。
  • 穿一样的衣服(使用完全相同的架构设计)。
  • 练一样的功(使用完全相同的训练食谱)。

唯一的区别是:一个被训练成“作家”(解码器),另一个被训练成“专家”(编码器)。

他们造了 5 对双胞胎,体型从“微型”(1700 万参数)到“巨型”(10 亿参数)都有。

核心发现(用大白话讲):

  1. 术业有专攻(天生我材必有用):

    • 如果你要写故事、写诗、写代码“作家”(解码器) 完胜。哪怕你让“专家”去强行学写作,它也写不出“作家”那种流畅和创意。
    • 如果你要做选择题、搜索信息、判断情感“专家”(编码器) 完胜。哪怕你让“作家”去强行做阅读理解,它也比不上从小接受专业训练的“专家”。
    • 比喻: 就像让一个职业足球运动员去当外科医生,或者让一个顶尖外科医生去踢世界杯。虽然他们都很聪明,但术业有专攻,强行跨界的效果远不如直接培养专业人才。
  2. “跨界转行”行不通:

    • 现在的流行做法是:既然“作家”模型很大很强,那就把它稍微改改,拿去干“专家”的活(比如做搜索或分类)。
    • 论文结论: 别费劲了!这种“转行”效果很差。一个专门训练的 4 亿参数的“专家”,比一个 10 亿参数但被强行转行的“作家”还要强。
    • 比喻: 这就像你花大价钱培养了一个钢琴家,然后想让他去拉小提琴。虽然他也懂音乐,但如果你需要一个真正的小提琴手,直接培养一个小提琴手(编码器)肯定比把钢琴家硬掰过来要快得多、好得多。
  3. 小模型也有大作为:

    • 以前大家觉得模型越大越好,但这篇论文证明,在特定任务上,专门的小模型(比如 4 亿参数的编码器)可以打败巨大的通用模型(比如 10 亿参数的解码器)。这意味着在手机上运行、或者做快速搜索时,不需要那种巨大的“作家”模型,专门的“专家”小模型既快又准。
  4. 偏见的小插曲:

    • 研究人员还发现,这两种模型在看待“性别”时有点不同。编码器(专家)更倾向于使用“中性”的代词,而解码器(作家)和编码器都有一点偏向男性的倾向,但随着模型变大,这种偏见会有所变化。这说明训练目标(是让它填空还是让它续写)会影响模型“思考”的方式。

总结:
这篇论文就像给 AI 界泼了一盆冷水,但也带来了一剂清醒药:

  • 不要迷信“万能模型”:并不是一个巨大的“作家”模型就能解决所有问题。
  • 回归专业主义:如果你需要搜索或分类,请专门训练一个“编码器”;如果你需要生成内容,请用“解码器”。
  • 开源贡献:作者把这一整套“双胞胎”模型、训练数据、甚至训练过程中的每一个检查点都公开了,让全人类都可以来研究这两种模型到底是怎么学习的。

一句话总结:
“让专业的做专业的事,别试图用一个模型通吃天下,否则既浪费了算力,又做不好事。”