Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在探讨一个大问题：当我们问人工智能（大语言模型）问题时，它到底是在“凭记忆回答”，还是在“看资料回答”？当它自己的记忆和看到的资料打架时，它听谁的？

想象一下，大语言模型（LLM）就像一个博闻强记但有点固执的老教授。

1. 老教授的“大脑”与“笔记本”

参数知识（Parametric Knowledge）= 老教授的大脑记忆
这个教授在上学时读了海量的书（训练数据），把知识都记在了脑子里（模型权重）。这就是他的“固有记忆”。
- 问题： 他的记忆可能过时了（比如他记得日本首都是东京，但没更新），或者他记错了。而且，如果你想让他忘掉一个错误记忆，通常得让他“重修所有课程”（重新训练），这太贵、太慢了。
上下文知识（Contextual Knowledge）= 老教授手边的笔记本
为了解决记忆过时的问题，我们给教授配了一个助手，助手会实时去图书馆查资料，把最新的资料（检索到的上下文）写在笔记本上，递给教授看。这就是RAG（检索增强生成）。
- 理想情况： 教授看一眼笔记本，发现资料是新的，就根据资料回答。
- 现实情况： 教授太自信了！有时候笔记本上明明写着“日本首都是东京”，教授却坚持说“日本首都是京都”（因为他的旧记忆太深了），直接无视了笔记本。

2. 这篇演讲主要讲了三个“侦探故事”

演讲者 Isabelle Augenstein 教授和她的团队，就像侦探一样，研究了这位“老教授”的内心戏：

故事一：教授到底靠哪块脑细胞在思考？

他们想搞清楚，教授回答问题时，到底是脑子里的哪一部分在起作用。

比喻： 就像你想找出教授脑子里哪根神经在负责“记得日本首都”。
发现： 他们发现，以前大家以为的“关键脑细胞”其实没那么重要。教授的大脑非常复杂，很多神经元是冗余的。更有趣的是，如果只挑几篇“看起来很重要”的文章给教授读，效果反而不如随机挑几篇。这说明教授的学习方式很微妙，不是简单的“读什么记什么”。

故事二：当“旧记忆”和“新资料”打架时，谁赢？

这是最精彩的部分。他们设计了一个实验，给教授看一些会变化的事实（比如“现在的英国首相是谁”）和不会变化的事实（比如"1+1 等于几”）。

反直觉的发现：
- 对于会变化的事实（动态事实），教授很固执，即使你给他看最新的资料，他也很难被说服，继续用旧记忆回答。
- 对于不会变化的事实（静态事实，比如“日本首都是东京”），如果你给他看一个编造的、但语气很肯定的假资料（比如“日本首都是斯德哥尔摩”），教授反而很容易被骗，直接改口！
结论： 教授对“新鲜事”很警惕，但对“老生常谈”却容易被带偏。这告诉我们，在开发 AI 时，不能只看资料是否“新”，还要看资料本身的确定性和表达方式。

故事三：为什么有时候教授“看”了资料却不用？

他们发现，现在的很多实验用的都是“人造假资料”（合成数据），这就像是在实验室里用假人做手术，和真实世界不一样。

比喻： 在实验室里，资料写得越夸张、冲突越明显，教授越容易改口。但在真实世界里（比如新闻、社交媒体），资料往往很模糊、很啰嗦，或者和教授的记忆冲突没那么剧烈。
发现： 教授更喜欢语气坚定、直接的资料（比如事实核查网站的文章），而不喜欢那些模棱两可、或者只是简单引用来源的资料。而且，如果资料太长，教授就会“走神”，忽略掉关键信息。

3. 核心启示：螺旋上升，而非原地打转

演讲最后引用了 Karen Spärck Jones 的名言：研究不是原地转圈，而是螺旋上升。

以前的 AI（PLM）： 擅长背诵，不擅长推理。
现在的 AI（LLM）： 依然擅长背诵，甚至更会“幻觉”（胡说八道），但在某些方面（如处理复杂上下文）依然有局限。

总结一下：
这篇论文告诉我们，不要盲目相信 AI 会完美地结合“记忆”和“资料”。

AI 很固执： 对于它认为“常识”的东西，很难用新资料纠正。
AI 很轻信： 对于它认为“不确定”的东西，反而容易被语气肯定的假资料带偏。
我们需要更真实的测试： 不能只在实验室里用假数据测试，要在真实、混乱的现实世界中测试 AI 的表现。

这就好比，我们给老教授配了笔记本，但如果不了解他的性格（什么时候固执、什么时候轻信），笔记本给得再多，他也可能读不懂，或者读错了。未来的研究，就是要学会怎么让这位“老教授”更聪明地利用他的笔记本。

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

1. 老教授的“大脑”与“笔记本”

2. 这篇演讲主要讲了三个“侦探故事”

故事一：教授到底靠哪块脑细胞在思考？

故事二：当“旧记忆”和“新资料”打架时，谁赢？

故事三：为什么有时候教授“看”了资料却不用？

3. 核心启示：螺旋上升，而非原地打转

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 参数知识的归因与评估 (Attribution Framework)

2.2 揭示知识冲突 (Revealing Knowledge Conflicts)

2.3 现实世界 RAG 中的上下文利用 (Real-world RAG Context Usage)

3. 关键贡献与发现 (Key Contributions & Results)

3.1 关于参数知识归因的发现

3.2 关于知识冲突的发现

3.3 关于 RAG 上下文利用的发现

4. 意义与结论 (Significance & Conclusion)

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

1. 老教授的“大脑”与“笔记本”

2. 这篇演讲主要讲了三个“侦探故事”

故事一：教授到底靠哪块脑细胞在思考？

故事二：当“旧记忆”和“新资料”打架时，谁赢？

故事三：为什么有时候教授“看”了资料却不用？

3. 核心启示：螺旋上升，而非原地打转

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 参数知识的归因与评估 (Attribution Framework)

2.2 揭示知识冲突 (Revealing Knowledge Conflicts)

2.3 现实世界 RAG 中的上下文利用 (Real-world RAG Context Usage)

3. 关键贡献与发现 (Key Contributions & Results)

3.1 关于参数知识归因的发现

3.2 关于知识冲突的发现

3.3 关于 RAG 上下文利用的发现

4. 意义与结论 (Significance & Conclusion)

类似论文

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance