Each language version is independently generated for its own context, not a direct translation.
这篇论文其实是在探讨一个大问题:当我们问人工智能(大语言模型)问题时,它到底是在“凭记忆回答”,还是在“看资料回答”?当它自己的记忆和看到的资料打架时,它听谁的?
想象一下,大语言模型(LLM)就像一个博闻强记但有点固执的老教授。
1. 老教授的“大脑”与“笔记本”
参数知识(Parametric Knowledge)= 老教授的大脑记忆
这个教授在上学时读了海量的书(训练数据),把知识都记在了脑子里(模型权重)。这就是他的“固有记忆”。
- 问题: 他的记忆可能过时了(比如他记得日本首都是东京,但没更新),或者他记错了。而且,如果你想让他忘掉一个错误记忆,通常得让他“重修所有课程”(重新训练),这太贵、太慢了。
上下文知识(Contextual Knowledge)= 老教授手边的笔记本
为了解决记忆过时的问题,我们给教授配了一个助手,助手会实时去图书馆查资料,把最新的资料(检索到的上下文)写在笔记本上,递给教授看。这就是RAG(检索增强生成)。
- 理想情况: 教授看一眼笔记本,发现资料是新的,就根据资料回答。
- 现实情况: 教授太自信了!有时候笔记本上明明写着“日本首都是东京”,教授却坚持说“日本首都是京都”(因为他的旧记忆太深了),直接无视了笔记本。
2. 这篇演讲主要讲了三个“侦探故事”
演讲者 Isabelle Augenstein 教授和她的团队,就像侦探一样,研究了这位“老教授”的内心戏:
故事一:教授到底靠哪块脑细胞在思考?
他们想搞清楚,教授回答问题时,到底是脑子里的哪一部分在起作用。
- 比喻: 就像你想找出教授脑子里哪根神经在负责“记得日本首都”。
- 发现: 他们发现,以前大家以为的“关键脑细胞”其实没那么重要。教授的大脑非常复杂,很多神经元是冗余的。更有趣的是,如果只挑几篇“看起来很重要”的文章给教授读,效果反而不如随机挑几篇。这说明教授的学习方式很微妙,不是简单的“读什么记什么”。
故事二:当“旧记忆”和“新资料”打架时,谁赢?
这是最精彩的部分。他们设计了一个实验,给教授看一些会变化的事实(比如“现在的英国首相是谁”)和不会变化的事实(比如"1+1 等于几”)。
- 反直觉的发现:
- 对于会变化的事实(动态事实),教授很固执,即使你给他看最新的资料,他也很难被说服,继续用旧记忆回答。
- 对于不会变化的事实(静态事实,比如“日本首都是东京”),如果你给他看一个编造的、但语气很肯定的假资料(比如“日本首都是斯德哥尔摩”),教授反而很容易被骗,直接改口!
- 结论: 教授对“新鲜事”很警惕,但对“老生常谈”却容易被带偏。这告诉我们,在开发 AI 时,不能只看资料是否“新”,还要看资料本身的确定性和表达方式。
故事三:为什么有时候教授“看”了资料却不用?
他们发现,现在的很多实验用的都是“人造假资料”(合成数据),这就像是在实验室里用假人做手术,和真实世界不一样。
- 比喻: 在实验室里,资料写得越夸张、冲突越明显,教授越容易改口。但在真实世界里(比如新闻、社交媒体),资料往往很模糊、很啰嗦,或者和教授的记忆冲突没那么剧烈。
- 发现: 教授更喜欢语气坚定、直接的资料(比如事实核查网站的文章),而不喜欢那些模棱两可、或者只是简单引用来源的资料。而且,如果资料太长,教授就会“走神”,忽略掉关键信息。
3. 核心启示:螺旋上升,而非原地打转
演讲最后引用了 Karen Spärck Jones 的名言:研究不是原地转圈,而是螺旋上升。
- 以前的 AI(PLM): 擅长背诵,不擅长推理。
- 现在的 AI(LLM): 依然擅长背诵,甚至更会“幻觉”(胡说八道),但在某些方面(如处理复杂上下文)依然有局限。
总结一下:
这篇论文告诉我们,不要盲目相信 AI 会完美地结合“记忆”和“资料”。
- AI 很固执: 对于它认为“常识”的东西,很难用新资料纠正。
- AI 很轻信: 对于它认为“不确定”的东西,反而容易被语气肯定的假资料带偏。
- 我们需要更真实的测试: 不能只在实验室里用假数据测试,要在真实、混乱的现实世界中测试 AI 的表现。
这就好比,我们给老教授配了笔记本,但如果不了解他的性格(什么时候固执、什么时候轻信),笔记本给得再多,他也可能读不懂,或者读错了。未来的研究,就是要学会怎么让这位“老教授”更聪明地利用他的笔记本。
Each language version is independently generated for its own context, not a direct translation.
这是一份关于 Isabelle Augenstein 在 ECIR 2025 上发表的 keynote 扩展摘要《理解大语言模型(LLM)参数知识与上下文知识利用的相互作用》的详细技术总结。
1. 研究背景与问题 (Problem)
随着大语言模型(LLM)的普及,其在信息检索和知识密集型任务中的应用日益广泛。然而,LLM 存在以下核心挑战:
- 参数知识与上下文知识的冲突:LLM 在预训练过程中将知识编码在权重中(参数知识),但在推理时往往需要结合检索到的外部上下文(上下文知识)。研究表明,LLM 经常忽略提供的上下文,尤其是当上下文与预训练记忆冲突时。
- 知识冲突的复杂性:冲突不仅存在于外部上下文与内部记忆之间(Context-Memory Conflict),也可能存在于模型内部参数记忆本身(Intra-Memory Conflict,即训练数据中存在矛盾事实)。
- 现有方法的局限性:
- 内部一致性检查(如思维链、自我一致性)无法完全解决事实性问题,且模型本身存在提示不稳定性。
- 知识编辑与持续学习成本高昂,且可能产生涟漪效应(修改非目标知识)或导致长尾知识丢失。
- **检索增强生成(RAG)**虽然常用,但关于“何时”以及“如何”让上下文知识覆盖参数知识,以及两者相互作用的具体机制,目前研究尚不充分。
- 评估数据的偏差:现有的研究多使用合成数据,未能真实反映现实世界 RAG 场景中检索内容的特征(如知识冲突在真实检索数据中其实较少见)。
2. 方法论 (Methodology)
该研究通过三个主要部分来探索参数知识与上下文知识的相互作用:
2.1 参数知识的归因与评估 (Attribution Framework)
- 统一评估框架:提出了一种统一框架,对比实例归因(Instance Attribution)(识别对预测最重要的训练样本)和神经元归因(Neuron Attribution)(识别对预测最重要的神经元)。
- 对齐与测试:将最重要的训练实例与最重要的神经元进行对齐。使用**忠实度测试(Faithfulness Tests)**评估:
- 充分性(Sufficiency):激活关键神经元是否足以产生预测。
- 完备性(Comprehensiveness):抑制关键神经元是否会导致预测改变。
- 微调实验:利用实例归因识别出的高影响力训练实例进行微调,并对比随机选择的实例。
2.2 揭示知识冲突 (Revealing Knowledge Conflicts)
- 数据集构建 (DynamicQA):构建了一个包含三种事实类型的数据集:
- 静态事实:只有一个可能表示。
- 时间事实:随时间变化。
- 可争议事实:取决于观点。
- 冲突度量:
- 内部记忆冲突:使用**语义熵(Semantic Entropy)**来捕捉参数记忆中的语义变化。
- 上下文 - 记忆冲突:提出连贯说服度评分(Coherent Persuasion Score),用于量化在提供竞争上下文时,模型输出分布的语义偏移程度。
- 实验设置:观察模型在不同事实动态性(静态 vs. 动态)以及有无冲突上下文情况下的输出分布变化。
2.3 现实世界 RAG 中的上下文利用 (Real-world RAG Context Usage)
- 新数据集 (DRUID):构建了一个基于真实世界事实核查(Claim Verification)的数据集,包含真实检索到的上下文,以替代合成数据。
- 新指标 (ACU):提出上下文利用度量(ACU, Actual Context Usage),用于衡量 LLM 在推理中实际利用检索内容的程度。
- 上下文操纵技术 (CMT):研究从简单提示到机制干预(Mechanistic Interventions)等多种技术,以解决上下文 - 记忆冲突。
3. 关键贡献与发现 (Key Contributions & Results)
3.1 关于参数知识归因的发现
- 神经元与实例的不一致性:实例归因和神经元归因给出了关于预测来源的不同解释。
- MLP 层的作用:研究发现,移除大部分 MLP 分类层神经元并不会显著改变预测,这与“知识主要存储在这些神经元中”的假设相悖。作者推测**注意力权重(Attention Weights)**在编码知识中起更关键作用。
- 微调的局限性:使用高影响力实例进行微调的效果并不优于随机选择相同数量的实例。原因是高影响力实例的多样性较低,限制了模型性能的提升。
- 联合应用价值:结合实例和神经元归因在发现数据集伪影(Dataset Artifacts,如模型过拟合特定词汇模式)方面比单独使用更有效。
3.2 关于知识冲突的发现
- 反直觉的“说服性”结果:
- 静态事实更容易被“说服”:向模型提供与静态事实(或低动态性事实)相矛盾的上下文,模型更容易被改变(即更容易被“说服”)。
- 动态事实难以更新:相反,经常变化的事实(如时间事实)反而更难通过检索上下文进行更新。
- 动态性是关键指标:事实的**动态性(Fact Dynamicity)**是模型是否接受上下文信息的 strongest negative indicator(最强的负向指标),其预测能力优于之前常用的“事实流行度”。这意味着在低确定性领域,需要新的冲突度量指标。
3.3 关于 RAG 上下文利用的发现
- 现实与合成的差距:合成数据集夸大了某些特征(如知识冲突)的影响,而真实世界中检索到的冲突较少。合成数据高估了“上下文排斥(Context Repulsion)”现象。
- 影响上下文利用的因素:
- 来源特征:来自事实核查来源的上下文(语气肯定、直接)利用率高;证据文档发布时间晚于声明的,利用率高。
- 查询 - 上下文相似度:模型倾向于优先处理与查询高度相似的上下文,但这在真实 RAG 中难以获得。
- 长度问题:模型对长上下文的忠实度较低。
- 冲突类型决定策略:
- 在事实核查任务中(冲突多),模型倾向于优先使用上下文知识。
- 在常识问答任务中(冲突少),模型更依赖参数记忆。
- 干预技术:在解决冲突的多种上下文操纵技术(CMT)中,没有一种技术是通用的“赢家”。大模型平均表现更好,但小模型在特定最佳 CMT 下可超越大模型。
4. 意义与结论 (Significance & Conclusion)
- 理论意义:该研究揭示了 LLM 在处理知识冲突时的复杂机制,特别是事实动态性对模型接受外部信息的关键影响,挑战了以往仅依赖“事实流行度”的假设。
- 实践意义:
- 为 RAG 系统的设计提供了新视角:在构建检索系统时,应关注事实的动态性,而不仅仅是检索相关性。
- 强调了真实世界数据的重要性:合成数据可能导致对模型行为的误判,未来的研究应更多基于现实场景(如 DRUID 数据集)。
- 指出了当前归因方法的局限性,并提出了改进方向(如关注注意力机制)。
- 未来展望:研究指出,尽管评估工作严谨,但往往“发现更多问题而非答案”。这强调了信息检索(IR)与自然语言处理(NLP)领域研究人员紧密合作的重要性,以深入理解 RAG 模型的内部工作机制。
总结:这篇演讲摘要通过系统的实证研究,阐明了 LLM 在参数知识与上下文知识之间的动态博弈,指出了当前 RAG 方法在现实场景中的局限性,并为未来的知识冲突解决和上下文利用策略提供了新的评估维度和数据集支持。