Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

这篇 ECIR 2025 主题演讲摘要探讨了大型语言模型在知识密集型任务中如何协调参数化知识与上下文检索知识之间的复杂互动,重点分析了知识冲突(包括参数内冲突及与上下文的冲突)的成因,并介绍了评估模型知识状态、诊断冲突及理解上下文知识有效利用特征的研究成果。

Isabelle Augenstein

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在探讨一个大问题:当我们问人工智能(大语言模型)问题时,它到底是在“凭记忆回答”,还是在“看资料回答”?当它自己的记忆和看到的资料打架时,它听谁的?

想象一下,大语言模型(LLM)就像一个博闻强记但有点固执的老教授

1. 老教授的“大脑”与“笔记本”

  • 参数知识(Parametric Knowledge)= 老教授的大脑记忆
    这个教授在上学时读了海量的书(训练数据),把知识都记在了脑子里(模型权重)。这就是他的“固有记忆”。

    • 问题: 他的记忆可能过时了(比如他记得日本首都是东京,但没更新),或者他记错了。而且,如果你想让他忘掉一个错误记忆,通常得让他“重修所有课程”(重新训练),这太贵、太慢了。
  • 上下文知识(Contextual Knowledge)= 老教授手边的笔记本
    为了解决记忆过时的问题,我们给教授配了一个助手,助手会实时去图书馆查资料,把最新的资料(检索到的上下文)写在笔记本上,递给教授看。这就是RAG(检索增强生成)

    • 理想情况: 教授看一眼笔记本,发现资料是新的,就根据资料回答。
    • 现实情况: 教授太自信了!有时候笔记本上明明写着“日本首都是东京”,教授却坚持说“日本首都是京都”(因为他的旧记忆太深了),直接无视了笔记本。

2. 这篇演讲主要讲了三个“侦探故事”

演讲者 Isabelle Augenstein 教授和她的团队,就像侦探一样,研究了这位“老教授”的内心戏:

故事一:教授到底靠哪块脑细胞在思考?

他们想搞清楚,教授回答问题时,到底是脑子里的哪一部分在起作用。

  • 比喻: 就像你想找出教授脑子里哪根神经在负责“记得日本首都”。
  • 发现: 他们发现,以前大家以为的“关键脑细胞”其实没那么重要。教授的大脑非常复杂,很多神经元是冗余的。更有趣的是,如果只挑几篇“看起来很重要”的文章给教授读,效果反而不如随机挑几篇。这说明教授的学习方式很微妙,不是简单的“读什么记什么”。

故事二:当“旧记忆”和“新资料”打架时,谁赢?

这是最精彩的部分。他们设计了一个实验,给教授看一些会变化的事实(比如“现在的英国首相是谁”)和不会变化的事实(比如"1+1 等于几”)。

  • 反直觉的发现:
    • 对于会变化的事实(动态事实),教授很固执,即使你给他看最新的资料,他也很难被说服,继续用旧记忆回答。
    • 对于不会变化的事实(静态事实,比如“日本首都是东京”),如果你给他看一个编造的、但语气很肯定的假资料(比如“日本首都是斯德哥尔摩”),教授反而很容易被骗,直接改口!
  • 结论: 教授对“新鲜事”很警惕,但对“老生常谈”却容易被带偏。这告诉我们,在开发 AI 时,不能只看资料是否“新”,还要看资料本身的确定性表达方式

故事三:为什么有时候教授“看”了资料却不用?

他们发现,现在的很多实验用的都是“人造假资料”(合成数据),这就像是在实验室里用假人做手术,和真实世界不一样。

  • 比喻: 在实验室里,资料写得越夸张、冲突越明显,教授越容易改口。但在真实世界里(比如新闻、社交媒体),资料往往很模糊、很啰嗦,或者和教授的记忆冲突没那么剧烈。
  • 发现: 教授更喜欢语气坚定、直接的资料(比如事实核查网站的文章),而不喜欢那些模棱两可、或者只是简单引用来源的资料。而且,如果资料太长,教授就会“走神”,忽略掉关键信息。

3. 核心启示:螺旋上升,而非原地打转

演讲最后引用了 Karen Spärck Jones 的名言:研究不是原地转圈,而是螺旋上升

  • 以前的 AI(PLM): 擅长背诵,不擅长推理。
  • 现在的 AI(LLM): 依然擅长背诵,甚至更会“幻觉”(胡说八道),但在某些方面(如处理复杂上下文)依然有局限。

总结一下:
这篇论文告诉我们,不要盲目相信 AI 会完美地结合“记忆”和“资料”。

  1. AI 很固执: 对于它认为“常识”的东西,很难用新资料纠正。
  2. AI 很轻信: 对于它认为“不确定”的东西,反而容易被语气肯定的假资料带偏。
  3. 我们需要更真实的测试: 不能只在实验室里用假数据测试,要在真实、混乱的现实世界中测试 AI 的表现。

这就好比,我们给老教授配了笔记本,但如果不了解他的性格(什么时候固执、什么时候轻信),笔记本给得再多,他也可能读不懂,或者读错了。未来的研究,就是要学会怎么让这位“老教授”更聪明地利用他的笔记本。