Transducing Language Models

该论文提出了一种基于有限状态转换器(FST)的通用框架,通过确定性字符串变换将预训练语言模型转换为新的功能模型,并开发了精确与近似算法,在不修改模型参数的情况下实现概率传播与条件生成,从而成功适配了从字节、单词到氨基酸序列等多种下游任务需求。

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu, Reda Boumasmoud, Ryan Cotterell, Tim Vieira

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常聪明的方法,叫做**“翻译语言模型”**(Transducing Language Models)。

为了让你轻松理解,我们可以把现代语言模型(比如 GPT、LLaMA)想象成一个**“只会说某种特定方言的超级作家”**。

1. 核心问题:作家和读者的“语言不通”

想象一下,你雇了一位才华横溢的作家(语言模型),但他有一个怪癖:

  • 他只会用“拼音缩写”写作(比如把 "Hello" 写成 "HE | LL | O")。
  • 或者,他只会用“摩斯密码”写作(比如 DNA 模型只输出碱基序列)。

但是,你的读者(下游应用)想要的是:

  • 完整的单词("Hello")。
  • 或者蛋白质序列(氨基酸)。

通常的做法是:作家写完“拼音缩写”后,你请一个翻译员(后处理程序)把它强行翻译成“完整单词”。

  • 问题出在哪? 这种“先写后翻”的方法有个大漏洞:作家在写的时候,根本不知道翻译员会怎么翻。
    • 比如,作家觉得 "HE" 的概率很高,"LL" 的概率也很高。但翻译后,"HE | LL" 可能变成了 "Hello",而 "H | ELL" 也可能变成 "Hello"。
    • 如果你只是简单地把翻译后的结果拼起来,你就算不准 "Hello" 这个单词到底出现的概率是多少。你丢失了概率信息,就像把一杯水倒进漏斗,不知道最后接住了多少。

2. 论文的解决方案:给作家配一个“智能翻译眼镜”

这篇论文说:别等写完了再翻,让作家戴着“智能翻译眼镜”直接写!

他们发明了一种叫**“有限状态转换器”(FST)的东西,这就像一副智能眼镜**,戴在作家(语言模型)的眼睛上。

  • 以前: 作家 -> 写拼音 -> 翻译员 -> 变单词 -> 算概率(算不准)。
  • 现在: 作家(戴着 FST 眼镜) -> 直接 输出单词的概率分布。

这副眼镜的工作原理是:

  1. 作家每想出一个“拼音片段”,眼镜立刻知道这个片段能变成哪些“单词”。
  2. 眼镜会把所有能变成同一个“单词”的“拼音片段”的概率全部加起来
  3. 最后,眼镜直接告诉世界:“看,'Hello' 这个词出现的总概率是 X"。

3. 核心魔法:如何“加总”而不“爆炸”?

你可能会问:“如果变成 'Hello' 的拼音组合有无穷多种,怎么加得过来?电脑不会死机吗?”

这就到了论文最精彩的部分。作者发现,虽然组合很多,但它们有规律,可以像切蛋糕一样切分:

  • 切法一(商集 Quotient): 有些拼音片段,不管后面怎么接,肯定能变成目标单词。比如 "HE" 后面接什么都能变成 "Hello" 的一部分。这些是“确定的”,我们可以直接算。
  • 切法二(余集 Remainder): 有些拼音片段,只有接了特定的东西才能变成目标单词,接错了就不行。这些是“不确定的”,我们需要单独处理。

作者设计了一套**“切蛋糕算法”,把无穷无尽的组合,切成了有限的几块**。

  • 对于“确定的块”,直接算概率。
  • 对于“不确定的块”,如果太复杂,就剪枝(Pruning):只保留概率最大的那几块,把那些几乎不可能发生的微小概率直接扔掉(就像修剪树枝,只留主干)。

4. 生活中的三个大例子

论文在三个领域验证了这个方法,非常实用:

  1. 从“拼音”变“字节”(Token to Byte):

    • 场景: 现在的 AI 模型通常输出“子词”(比如 "un" + "believ" + "able")。
    • 应用: 如果你需要模型直接输出计算机能读懂的原始“字节”(比如用于文件传输或底层系统),以前很难算准概率。现在,戴上眼镜,模型就能直接输出字节的概率,不需要重新训练模型
  2. 从“拼音”变“单词”(Token to Word):

    • 场景: 心理学家研究人眼阅读时,需要知道人看到"unbelievable"这个词时的惊讶程度。但模型是按"un"、"believ"、"able"分步输出的。
    • 应用: 戴上眼镜,模型能直接告诉你看到整个"unbelievable"单词的概率,让心理学实验更精准。
  3. 从"DNA"变“蛋白质”(DNA to Amino Acids):

    • 场景: 生物学家用 AI 分析 DNA 序列(A, T, C, G),但医生需要的是蛋白质序列(氨基酸)。
    • 应用: 3 个 DNA 碱基对应 1 个氨基酸。以前很难算准某个氨基酸出现的概率。现在,模型可以直接输出氨基酸的概率,帮助设计新药。

5. 总结:为什么这很酷?

  • 省钱省力: 你不需要花巨资去重新训练一个巨大的模型来适应新格式。你只需要给现有的模型戴上一副“眼镜”(FST),它就能立刻变身。
  • 精准: 它解决了“翻译后概率丢失”的数学难题,让概率计算变得严谨。
  • 灵活: 只要你能用“状态机”(FST)描述转换规则(比如把大写变小写,把 DNA 变蛋白质),这个方法就通用。

一句话总结:
这篇论文发明了一种**“概率翻译器”**,它能让现有的 AI 模型在不重新学习的情况下,直接以你需要的格式(单词、字节、蛋白质)说话,并且保证它说的每一句话,概率都是算得清清楚楚的。