Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在大语言模型（LLM）的世界里，举办了一场**“双胞胎大比拼”**。

想象一下，大语言模型主要有两种“性格”：

解码器（Decoder）：像是一个**“滔滔不绝的作家”**。它擅长接龙写故事、写代码、生成创意内容。现在的 ChatGPT、Llama 都是这种类型。
编码器（Encoder）：像是一个**“专注的阅读理解专家”**。它擅长做选择题、判断文章情感、搜索信息、分类文档。以前的 BERT 就是这种类型。

过去的问题：
以前大家觉得“作家”太厉害了，连“阅读理解”也能做（只要多训练一下），所以“专家”型模型就被冷落了。但是，之前的比较很不公平：拿一个刚出生的“作家”去和一个训练了很久的“专家”比，或者拿不同教材、不同训练方法的模型来比，这就好比拿“刚学会走路的孩子”和“奥运冠军”比跑步，结果当然没意义。

这篇论文做了什么？（ETTIN 套件）
约翰斯·霍普金斯大学的研究团队（Orion Weller 等人）决定**“一视同仁”。他们造了一组双胞胎模型**（叫 ETTIN，名字来自北欧神话里的双头巨人），这组双胞胎：

吃一样的饭（使用完全相同的数据集，高达 2 万亿个词）。
穿一样的衣服（使用完全相同的架构设计）。
练一样的功（使用完全相同的训练食谱）。

唯一的区别是：一个被训练成“作家”（解码器），另一个被训练成“专家”（编码器）。

他们造了 5 对双胞胎，体型从“微型”（1700 万参数）到“巨型”（10 亿参数）都有。

核心发现（用大白话讲）：

术业有专攻（天生我材必有用）：
- 如果你要写故事、写诗、写代码，“作家”（解码器） 完胜。哪怕你让“专家”去强行学写作，它也写不出“作家”那种流畅和创意。
- 如果你要做选择题、搜索信息、判断情感，“专家”（编码器） 完胜。哪怕你让“作家”去强行做阅读理解，它也比不上从小接受专业训练的“专家”。
- 比喻： 就像让一个职业足球运动员去当外科医生，或者让一个顶尖外科医生去踢世界杯。虽然他们都很聪明，但术业有专攻，强行跨界的效果远不如直接培养专业人才。
“跨界转行”行不通：
- 现在的流行做法是：既然“作家”模型很大很强，那就把它稍微改改，拿去干“专家”的活（比如做搜索或分类）。
- 论文结论： 别费劲了！这种“转行”效果很差。一个专门训练的 4 亿参数的“专家”，比一个 10 亿参数但被强行转行的“作家”还要强。
- 比喻： 这就像你花大价钱培养了一个钢琴家，然后想让他去拉小提琴。虽然他也懂音乐，但如果你需要一个真正的小提琴手，直接培养一个小提琴手（编码器）肯定比把钢琴家硬掰过来要快得多、好得多。
小模型也有大作为：
- 以前大家觉得模型越大越好，但这篇论文证明，在特定任务上，专门的小模型（比如 4 亿参数的编码器）可以打败巨大的通用模型（比如 10 亿参数的解码器）。这意味着在手机上运行、或者做快速搜索时，不需要那种巨大的“作家”模型，专门的“专家”小模型既快又准。
偏见的小插曲：
- 研究人员还发现，这两种模型在看待“性别”时有点不同。编码器（专家）更倾向于使用“中性”的代词，而解码器（作家）和编码器都有一点偏向男性的倾向，但随着模型变大，这种偏见会有所变化。这说明训练目标（是让它填空还是让它续写）会影响模型“思考”的方式。

总结：
这篇论文就像给 AI 界泼了一盆冷水，但也带来了一剂清醒药：

不要迷信“万能模型”：并不是一个巨大的“作家”模型就能解决所有问题。
回归专业主义：如果你需要搜索或分类，请专门训练一个“编码器”；如果你需要生成内容，请用“解码器”。
开源贡献：作者把这一整套“双胞胎”模型、训练数据、甚至训练过程中的每一个检查点都公开了，让全人类都可以来研究这两种模型到底是怎么学习的。

一句话总结：
“让专业的做专业的事，别试图用一个模型通吃天下，否则既浪费了算力，又做不好事。”

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《SEQ VS SEQ: AN OPEN SUITE OF PAIRED ENCODERS AND DECODERS》（序列对序列：配对编码器与解码器的开放套件）的详细技术总结。

1. 研究背景与问题 (Problem)

现状： 大型语言模型（LLM）社区目前几乎完全专注于Decoder-only（仅解码器，如 GPT 风格）模型，因为它们在文本生成任务上表现卓越且易于使用。然而，Encoder-only（仅编码器，如 BERT 风格）模型在分类、检索和嵌入等任务中仍被广泛使用。
痛点： 现有的研究试图比较这两种架构，但往往存在严重的不可比性。之前的比较通常涉及不同参数规模、不同训练数据、不同训练配方（Recipe）以及不同架构的模型。这种“苹果对橘子”的比较导致无法准确判断架构本身的优劣。
核心问题： 在控制变量（相同数据、相同架构设计、相同训练配方）的前提下，Encoder-only 和 Decoder-only 模型在各自擅长的任务上究竟表现如何？此外，通过继续预训练（Continued Pre-training）将 Decoder 转化为 Encoder（或反之）是否能弥补架构上的差异？

2. 方法论 (Methodology)

作者提出了 ETTIN 套件，这是一个包含 10 个模型（5 对配对模型）的开源数据集，旨在实现“苹果对苹果”的公平比较。

模型规模： 覆盖从 1700 万参数（17M）到 10 亿参数（1B）的 6 种不同规模（17M, 32M, 68M, 150M, 400M, 1B）。
训练数据： 使用完全相同的公开数据源（基于 DCLM 和 Dolma v1.7 的混合数据），训练 token 数高达 2 万亿（部分模型受算力限制为 667B）。
训练配方 (Recipe)：
- 架构： 遵循 ModernBERT 的设计理念（深而薄的模型），除注意力机制外，Encoder 和 Decoder 的超参数完全一致。
- 差异点：
  - Encoder： 双向注意力 (Bidirectional Attention) + 掩码语言建模 (MLM)。
  - Decoder： 因果注意力 (Causal Attention) + 因果语言建模 (CLM)。
- 训练阶段： 分为基座预训练 (Base Pre-training)、上下文扩展/中期训练 (Mid-training) 和衰减阶段 (Decay Phase)。
跨目标训练 (Cross-Objective Training)：
- 为了测试“转换”的有效性，作者对最终模型进行了反向目标的继续预训练：
  - Decoder $\to$ Encoder： 使用 MLM（具体为 MNTP，即利用前一个 token 的隐藏状态预测掩码 token）继续训练 50B tokens。
  - Encoder $\to$ Decoder： 使用 CLM 继续训练 50B tokens。
- 训练量远超以往类似工作（如 LLM2Vec 仅约 10B tokens）。
开源性： 公开了所有训练数据、按检查点（Checkpoint）分割的训练顺序以及 200+ 个检查点，允许社区深入分析学习过程。

3. 主要贡献 (Key Contributions)

首个公平比较套件： 提供了第一套使用相同数据、相同架构和相同训练配对的 Encoder 和 Decoder 模型，消除了以往比较中的混淆变量。
SOTA 性能： ETTIN 模型在其规模范围内，无论是作为 Encoder 还是 Decoder，均达到了开源数据模型的最先进（SOTA）水平。
- Encoder： 超越了 ModernBERT。
- Decoder： 超越了 Llama 3.2 和 SmolLM2 的同等规模版本。
跨目标训练的实证研究： 首次大规模验证了“将 Decoder 转为 Encoder"或反之的继续预训练策略。
学习过程分析工具： 通过提供详细的检查点和数据顺序，支持对性别偏见等学习特性的深入分析。

4. 实验结果 (Results)

A. 架构性能对比 (Architecture Performance)

分类与检索任务 (Encoder 强项)：
- Encoder-only 模型在 MNLI（分类）和 MS MARCO（检索）任务上显著优于 Decoder-only 模型。
- 关键发现： 即使 Decoder 模型的参数量是 Encoder 的数倍（例如 1B Decoder vs 400M Encoder），Encoder 依然表现更好。
- 跨目标训练无效： 将 Decoder 继续预训练为 Encoder（Decoder-from-Encoder）后，其性能并未达到原生 Encoder 的水平。例如，400M 的原生 Encoder 在 MNLI 上优于 1B 的 Decoder-from-Encoder。
生成任务 (Decoder 强项)：
- Decoder-only 模型在 ARC、HellaSwag、TriviaQA 等生成任务上显著优于 Encoder。
- 跨目标训练无效： 将 Encoder 继续预训练为 Decoder（Encoder-from-Decoder）后，其生成能力并未显著提升，且随着模型规模增大，性能差距反而拉大。Encoder-from-Decoder 的扩展性（Scaling）表现较差。

B. 规模扩展性 (Scaling)

在生成任务中，Decoder 的性能随参数量增加而显著提升，而 Encoder-from-Decoder 的扩展效果不佳。
在分类/检索任务中，原生 Encoder 在较小规模下即可超越更大规模的 Decoder。

C. 偏见分析 (Case Study: Gender Bias)

利用 WinoGender 数据集分析发现：
- Encoder 倾向于使用更多中性代词。
- Decoder 和 Encoder 都表现出对男性代词的偏见，但 Decoder 的男性偏见略强。
- 随着模型规模增大，Decoder 使用女性代词的比例增加，男性代词比例下降；而 Encoder 的趋势则更为随机。

5. 意义与结论 (Significance & Conclusion)

架构选择建议：
- 对于分类、检索和嵌入任务，Encoder-only 架构是更优选择，即使使用较小的模型也能超越大参数量的 Decoder。
- 对于文本生成任务，Decoder-only 架构具有不可替代的优势。
对“转换”策略的否定： 论文有力地证明了，简单地通过继续预训练（Continued Pre-training）将 Decoder 转换为 Encoder（或反之）无法弥补架构本身的固有差异。原生架构在各自领域具有不可逾越的优势。
社区影响：
- 打破了"Decoder 万能论”的迷思，证明了在特定任务下，Encoder 依然具有极高的价值，尤其是在资源受限（小参数）场景下。
- 提供了宝贵的开源资源（数据、代码、检查点），为未来研究模型如何学习、数据质量影响以及偏见分析提供了坚实基础。
未来方向： 尽管目前大模型排行榜（如 MTEB）主要由 7B+ 的 Decoder 主导，但研究表明，如果训练专门的 Encoder，3B 规模的 Encoder 可能就能超越这些大模型。这提示社区应重新重视 Encoder-only 模型的开发。

总结： 这篇论文通过严谨的对照实验，确立了 Encoder 和 Decoder 在各自领域的“主场优势”，并指出跨架构的迁移学习（Cross-Objective Training）并非解决架构差异的银弹。同时，ETTIN 套件为开放科学社区提供了研究语言模型训练动态的宝贵资源。

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

A. 架构性能对比 (Architecture Performance)

B. 规模扩展性 (Scaling)

C. 偏见分析 (Case Study: Gender Bias)

5. 意义与结论 (Significance & Conclusion)

类似论文

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance