A Geometric Taxonomy of Hallucinations in LLMs

该论文提出了一种基于嵌入空间几何特征的大语言模型幻觉分类法,将幻觉划分为不忠实、虚构和事实错误三类,并据此开发了相应的检测指标,同时揭示了现有基准测试中因标注风格混淆而导致的事实错误检测理论局限。

Javier Marín

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像给大语言模型(LLM)的“胡言乱语”(幻觉)做了一次几何体检

作者发现,虽然模型说错话都叫“幻觉”,但它们在数学空间里的“长相”和“走位”其实完全不同。作者把幻觉分成了三类,并发明了两种“测谎仪”来分别对付它们。

我们可以把大模型想象成一个在巨大球形广场(嵌入空间)上跳舞的舞者,而我们的任务是判断它跳得对不对。

1. 三种不同的“舞步失误”(幻觉分类)

作者把幻觉分成了三种,每种在广场上的表现都不一样:

  • 第一类:装聋作哑(Type I: Unfaithfulness)

    • 场景:你给模型看了一份参考文档(比如一篇新闻),让它基于文档回答问题。
    • 失误:模型完全无视你给的文档,自顾自地背它脑子里的旧知识。
    • 几何特征:在广场上,它的舞步(回答)应该往“参考文档”的方向走,但它却原地踏步,或者往“你提问”的方向走,就是不肯靠近“参考文档”。
    • 比喻:就像你问导游:“根据这张地图,前面是公园吗?”导游却完全不看地图,直接背出他以前去过的另一个公园。
  • 第二类:无中生有(Type II: Confabulation)

    • 场景:你问一个开放问题,比如“谁发明了时光机?”
    • 失误:模型一本正经地编造了一个不存在的科学家或机构。
    • 几何特征:它的舞步突然偏离了“合理答案”的轨道,跳到了一个从未有人跳过的奇怪区域。这种偏离是有方向性的,就像在广场上突然跳出了人群,走向了荒原。
    • 比喻:就像你问“谁发明了苹果?”它回答“是牛顿的邻居老张发明的”。这种回答在逻辑上是“异类”,在数学空间里离正常答案很远。
  • 第三类:细节错误(Type III: Factual Error)

    • 场景:模型知道大框架是对的,但细节错了。
    • 失误:比如问“谁是美国总统?”,它回答“是林肯”(其实是拜登,但林肯也是总统)。
    • 几何特征:这是最狡猾的。因为它跳的舞步依然在“总统”这个圈子里,和正确答案的舞步几乎重叠。在数学上,错误的细节和正确的细节长得太像了,就像双胞胎,几何测谎仪根本分不清谁是谁。
    • 比喻:就像你问“苹果是什么颜色的?”,它回答“它是紫色的”。虽然错了,但“紫色”和“红色”在颜色圈里挨得很近,很难用几何距离把它和正确答案区分开。

2. 两种“测谎仪”(检测方法)

针对前两类,作者发明了两种工具:

  • 工具一:语义锚定指数 (SGI) —— 专治“装聋作哑”

    • 原理:它测量模型的回答是更靠近“你给的文档”,还是更靠近“你的问题”。
    • 怎么判断:如果回答离文档更近,说明它认真看了;如果离问题更近(或者原地不动),说明它在“偷懒”瞎编。
    • 效果:就像检查导游有没有看地图,如果没看,直接报警。
  • 工具二:方向锚定指数 (Γ) —— 专治“无中生有”

    • 原理:它先学习什么是“正常的回答方向”(比如大家公认的事实是怎么跳的)。然后看模型的新回答,是不是往奇怪的方向跳了。
    • 怎么判断:如果模型跳出了“合理舞步”的圈子,这个指数就会报警。
    • 效果:在检测人类编写的“瞎编乱造”时,这个工具非常准(准确率高达 95% 以上),比传统的“逻辑判断”工具强得多。因为它能发现那些“语法通顺但逻辑离谱”的废话。

3. 为什么第三类(细节错误)很难抓?

作者做了一个有趣的实验,发现以前大家以为能检测“细节错误”的方法,其实是个误会

  • 真相:在《TruthfulQA》这个测试集里,那些“假答案”之所以容易被检测出来,不是因为它们“错了”,而是因为它们写得比较短、比较肯定;而“真答案”通常写得比较长、比较谨慎(比如加了很多“可能”、“也许”)。
  • 比喻:就像警察抓小偷,结果抓到的全是“说话声音大、语速快”的人,而真正的小偷(细节错误)其实说话很谨慎,和好人长得一模一样。
  • 结论:只要模型还在“编造”(Type II),几何方法就能抓;但只要它是“记错了细节”(Type III),在数学空间里,错误和正确是几何上不可区分的。这不是技术不够好,而是数学原理决定的。

总结

这篇论文告诉我们:

  1. 不要把所有幻觉混为一谈。有的幻觉是“不看文档”,有的幻觉是“瞎编乱造”,有的幻觉是“记错细节”。
  2. 前两种可以用数学几何的方法精准打击,特别是那种“一本正经胡说八道”的编造。
  3. 第三种(记错细节)目前无解,因为它们在数学上长得太像了。我们之前以为能检测出来,其实只是检测到了“说话风格”的不同,而不是事实本身。

这就好比:我们可以轻易发现谁在撒谎(编造),也可以发现谁在无视证据(不看文档),但如果一个人记错了(比如把生日记错一天),在数学的显微镜下,他和记对的人几乎是一模一样的。