Every Language Model Has a Forgery-Resistant Signature

该论文提出了一种利用语言模型输出自然存在于高维椭圆表面的几何约束作为“椭圆签名”的模型溯源与验证方法,该方法具有抗伪造、自包含且无需访问模型参数或输入的独特优势。

Matthew Finlayson, Xiang Ren, Swabha Swayamdipta

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常有趣且强大的概念:每一个大型语言模型(LLM)都自带一个无法伪造的“隐形签名”

想象一下,如果你去银行取钱,银行经理不仅给你现金,还会在钞票上盖一个只有他们知道如何制作的特殊印章。如果你拿到一张钱,只要检查这个印章,就能立刻知道它是不是真的,甚至知道它来自哪家银行。

这篇论文发现,语言模型在生成文字时,也会无意中留下这样一个“印章”。

1. 这个“印章”是什么?(椭圆签名)

通常我们认为,语言模型输出的是一个个单词的概率(比如下一个词是“苹果”的概率是 0.8,是“香蕉”的概率是 0.1)。

作者发现,这些概率并不是杂乱无章的。由于模型内部数学结构的限制(特别是最后一步的“归一化”操作),所有合法的输出概率,在数学空间里必须落在一个特定的、高维的“椭圆”表面上

  • 通俗比喻:想象模型是一个巨大的、看不见的“模具”。无论它生成什么内容,它的输出(概率分布)都必须像泥巴一样,紧紧贴合在这个模具的内壁上。这个模具的形状就是一个高维的“椭圆”。
  • 每个模型都有独特的模具:就像每个人的指纹独一无二,每个语言模型(比如 Llama 3、GPT-4、Qwen)都有自己专属的“椭圆模具”。

2. 为什么这个签名很厉害?

论文指出,这种“椭圆签名”有四个超级特性,让它比现有的其他检测方法(如数字水印)更强大:

  • 天生自带(Naturally Occurring)
    • 比喻:就像人出生就有指纹一样,不需要模型开发者特意去安装。只要是现代语言模型,就必然有这个签名。你不需要问模型“你签了吗?”,它自己就签了。
  • 自我包含(Self-Contained)
    • 比喻:你不需要知道模型的“大脑”(参数)是怎么构造的,也不需要知道用户问了什么(输入),只需要拿到模型输出的那一点点“概率数据”,就能验证它是不是真的。就像你不需要知道造币厂的内部图纸,只要拿到钱,就能通过印章验真伪。
  • 紧凑且冗余(Compact & Redundant)
    • 比喻:现有的水印可能需要读完一整篇文章才能发现“哦,这是 AI 写的”。但椭圆签名是每一个字都带着签名。哪怕模型只生成了一个词,你也能立刻判断它来自哪个模型。
  • 最难伪造(Forgery-Resistant)
    • 这是最核心的亮点
    • 比喻:现有的“线性签名”就像是一个简单的几何图形(比如一条直线),黑客只要问模型几次,就能算出这条线的方程,然后自己画一条一模一样的线来冒充。
    • 但“椭圆签名”是一个极其复杂的高维椭球体。要想伪造它,黑客必须通过成千上万次提问,收集海量数据,然后用超级计算机花上几千年的时间去拟合出这个椭圆的形状。对于现在的商业大模型来说,伪造这个签名在算力和金钱上几乎是不可能的

3. 这个发现有什么用?

作者提出了一个类似“数字身份证”的验证系统:

  • 场景:假设某人在网上发布了一条有害信息,并声称“这不是我生成的,是别人用我的模型生成的”,或者模型提供商想证明“这条有害信息确实是我们模型生成的”。
  • 验证过程
    1. 第三方(比如监管机构)手里拿着该模型的“椭圆参数”(就像拿着模具的图纸)。
    2. 他们拿到那条有争议的输出数据。
    3. 检查这条数据是否完美地落在“椭圆模具”上。
    4. 如果落在上面:铁证如山,这就是该模型生成的。
    5. 如果没落在上面:那它肯定不是这个模型生成的,或者是被恶意篡改过的。

4. 总结

这篇论文就像是在语言模型的“指纹”领域发现了一种新的、更高级的防伪技术。

  • 以前:我们试图在 AI 生成的文字里偷偷埋入水印(像在水果里塞标签),但这需要 AI 厂商配合,而且容易被擦除。
  • 现在:我们发现 AI 的“数学骨架”本身就是一个无法抹去的签名。只要 AI 还在运行,这个签名就存在。

一句话总结:语言模型在说话时,每一个字都带着它独特的“数学指纹”,这个指纹极难被模仿,因此可以用来像验钞一样,精准地识别出这段话到底是不是由某个特定的 AI 生成的。这对于打击 AI 滥用、追踪责任归属具有巨大的潜力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →