Rare Event Analysis of Large Language Models

本文提出了一种端到端框架,用于系统性地分析大语言模型中罕见但重要的事件,并提供生成、概率估计和错误分析的实用工具,以应对因模型规模庞大及其概率特性所带来的挑战。

原作者: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

发布于 2026-05-29
📖 1 分钟阅读☕ 轻松阅读

原作者: Jake McAllister Dorman, Edward Gillman, Dominic C. Rose, Jamie F. Mair, Juan P. Garrahan

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你拥有一位才华横溢但略显不可预测的故事讲述者。这位讲述者(即大型语言模型,或 LLM)非常擅长讲述关于猫、森林和犀牛的正常故事。然而,由于它是一个概率机器,它偶尔会讲出一个怪异、危险或完全荒谬的故事。这些怪异的故事就是“稀有事件”。

问题在于,这些怪异的故事如此罕见,以至于如果你询问这位讲述者一百万次,你可能永远听不到一个。但如果你询问它十亿次(当数百万人每天使用人工智能时就会发生这种情况),这些怪异的故事最终会出现,并可能引发麻烦。

这篇论文就像一套新工具包,旨在无需等待十亿年去自然听到这些“大海捞针”般的故事,就能发现、研究并理解它们。

以下是作者如何用简单的类比来解释他们的方法:

1. 问题:“沉默的图书馆”

想象一个图书馆,其中 99.9% 的书籍是正常的童话故事。其余 0.0001% 是恐怖故事。如果你只是走进去随机抓取书籍,你只会找到童话故事。你可能会认为这个图书馆是 100% 安全的。但如果你等待足够长的时间,你确实会找到恐怖故事。

作者说:“我们不能等那么久。我们需要一种方法现在就找到恐怖故事,以便了解它们的样子以及它们有多危险。”

2. 解决方案:“魔法透镜”(稀有事件分析)

作者没有等待稀有故事自然出现,而是借用了一种物理学技术(称为稀有事件分析)。这就像戴上一副“魔法透镜”,使稀有、可怕的故事出现的频率大大增加,同时仍能追踪它们实际有多罕见。

他们分三个主要步骤这样做:

  • 步骤 1:定义“怪物”(设置)
    首先,你必须决定你在寻找什么。是太难读的故事?还是模型认为极不可能发生的故事?作者挑选了两个特定的“怪物”来猎捕:

    • “胡言乱语怪物”:复杂或重复到无法阅读的故事(通过“可读性指数”衡量)。
    • “鬼故事”:模型自己认为极不可能发生的故事(通过“对数概率”衡量)。
  • 步骤 2:“推动”(估计)
    为了找到这些怪物,作者不仅仅是让模型“讲个故事”。他们使用了一种称为**过渡路径采样(TPS)**的技术。

    • 类比:想象你试图在茂密的森林中找到一条特定的、罕见的路径。通常,你只是向前走,并停留在主路上。
    • 推动:作者使用一种“推动”(数学偏差)来温和地引导讲述者走向稀有路径。他们让模型生成一个故事,然后说:“嘿,那部分太正常了,让我们试着把故事的中间部分改得有点怪异。”
    • 他们反复这样做,就像雕塑家在一块石头上凿刻,逐渐引导故事走向“怪异”区域。他们使用“退火”(冷却计划)来逐步完成这一过程,以免故事支离破碎。
  • 步骤 3:“数学镜子”(探索与修正)
    因为他们“推动”模型去寻找这些稀有故事,所以他们找到的故事不再是 100% 自然的。它们是“有偏差的”。

    • 类比:想象你使用放大镜找到了一只罕见的虫子。你找到了 1000 只虫子,但在现实世界中,实际上只有 10 只。
    • 修正:作者使用一种称为MBAR(多态 Bennett 接受率)的数学工具。这就像一面“数学镜子”,可以修正数字。它看着他们找到的 1000 只虫子,并说:“好吧,因为我们使用了放大镜,我们知道在现实世界中,这实际上代表十亿分之一的概率。”
    • 这使得他们能够计算出稀有事件发生的真实几率,即使他们在实验中强行让它发生了。

3. 他们的发现

作者在名为TinyStories(一个在儿童故事上训练的模型)的小型模型上测试了这一点。

  • “难读”的故事:他们发现,虽然该模型旨在为儿童写作,但它确实能生成极其难读的故事(就像用胡言乱语写成的大学级别论文)。这些故事很罕见,但它们确实存在。
  • “重复”技巧:当模型试图写这些困难的故事时,它经常退回到一个安全网:重复。它开始一遍又一遍地重复单词(例如,“特鲁鲁鲁鲁……特鲁鲁鲁鲁……")。模型认为这是让故事继续下去的好方法,尽管对人类来说这看起来像是一个故障。
  • “鬼”故事:他们还发现了一些模型认为极不可能发生、本应永远不会出现的故事,但在受到推动时,模型仍然生成了它们。

4. 为什么这很重要(根据论文)

论文声称,这是有人为人工智能构建完整的“端到端”系统以进行此类操作的第一次。

  • 这是一份实用指南:他们不仅仅是在谈论理论;他们提供了代码和逐步说明,教人们如何做到这一点。
  • 它很高效:他们证明你不需要等待十亿年。使用他们的“推动”和“数学镜子”技术,你可以在合理的时间内找到这些稀有事件。
  • 它具有通用性:虽然他们在小型模型上进行了测试,但数学原理适用于任何规模的模型。

总结

将这篇论文视为一份人工智能安全检验员手册。与其等待汽车撞车以查看刹车是否有效,不如这本手册教你如何在受控的情况下故意将汽车驶入“撞车区”,精确测量撞车的可能性,并弄清楚汽车在撞车前做了什么。这有助于开发者建立更好的“护栏”,以防止人工智能在现实世界中说出或做出危险的事情。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →