Retrieving Counterfactuals Improves Visual In-Context Learning

该论文提出了 CIRCLES 框架,通过检索反事实示例来构建演示集,从而帮助视觉语言模型在少样本情境下超越表面相关性,实现对属性与结果间因果关系的更鲁棒推理。

Guangzhi Xiong, Sanchit Sinha, Zhenghao He, Aidong Zhang

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CIRCLES 的新方法,旨在让“看图说话”的人工智能(视觉语言模型,VLM)变得更聪明、更靠谱。

为了让你轻松理解,我们可以把人工智能想象成一个正在备考的“超级学生”,而这篇论文就是教它如何更有效地复习

1. 现在的“学生”遇到了什么麻烦?

目前的 AI 学生很厉害,能看懂很多图。但在做复杂的“看图推理”题时,它有个大毛病:它太喜欢“死记硬背”表面的相似性,而忽略了真正的因果关系。

  • 比喻: 想象你在教学生认鸟。
    • 传统方法(类似 RICES): 你给学生看一张“金翅莺”的照片,然后从题库里找几张长得最像的照片给它看。结果发现,题库里全是“松莺”(因为它们在同一个树林里,经常一起出现)。
    • 后果: 学生学会了:“哦,只要背景是松树,就是松莺。”它记住了相关性(松树和松莺总在一起),却没学会因果性(到底是什么特征决定了它是松莺?是胸口的颜色?还是翅膀的花纹?)。
    • 真实场景: 如果考试出了一张背景是松树,但胸口颜色不一样的鸟,这个“死记硬背”的学生就会答错。

2. CIRCLES 是怎么解决的?

CIRCLES 的核心思想是:不要只找“长得像”的例子,要找“如果变了会怎样”的例子(反事实例子)。

这就好比老师不再只给学生看“标准答案”,而是给学生看**“如果改了一个小细节,答案会有什么不同”**的对比实验。

  • 比喻: 老师拿着那张“金翅莺”的图,对学生说:
    • “看,这是金翅莺,它的肚子是条纹的。”
    • “现在,如果我们把它的肚子变成纯色(其他都不变),它会变成什么鸟?看这张图,它变成了‘松莺’。”
    • “再试一次,如果我们把它的头顶黑斑去掉,它又变成了什么?看,变成了‘蓝翅莺’。”

通过这种**“控制变量法”**(只改一个特征,看结果怎么变),学生终于明白了:原来决定鸟的种类,不是背景里的树,而是肚子上的花纹和头顶的颜色。

3. CIRCLES 具体是怎么做的?(三步走)

CIRCLES 框架就像是一个聪明的复习助手,它分三步帮学生找复习资料:

  1. 找出关键特征(Attribute Identification):
    • 助手先问 AI 学生:“你觉得这张图里,哪个特征对回答问题最重要?”(比如:胸口的颜色)。
  2. 制造“反事实”考题(Counterfactual Retrieval):
    • 助手利用一种叫“组合图像检索”的技术,在题库里专门找那些**“除了胸口颜色变了,其他都跟原图一样”**的鸟。
    • 这就像是在题库里人工制造了一组“对照组”实验。
  3. 混合复习(Retrieval-Augmented Inference):
    • 最后,助手把**“长得像的常规例子”(用来建立整体感觉)和“改了关键特征的对比例子”**(用来理清逻辑)混合在一起,打包成一份完美的复习材料,喂给 AI 学生。

4. 这个方法好在哪里?

论文通过大量实验证明,CIRCLES 比以前的方法强很多,特别是在以下情况:

  • 小模型也能变强: 就像给一个普通学生(小参数模型)配了个特级辅导老师,它的进步比天才学生(大模型)更明显。
  • 资料少的时候更稳: 如果题库里关于某种鸟的资料很少(信息稀缺),传统方法容易瞎猜,但 CIRCLES 因为懂得“对比分析”,依然能猜对。
  • 不再被误导: 它学会了透过现象看本质,不会被背景里的树、草地这些“干扰项”带偏。

总结

CIRCLES 就像是给 AI 学生开了一堂**“科学实验课”**。

以前的 AI 只是**“看山是山”(看到相似的图就认为是同类);
现在的 AI 在 CIRCLES 的帮助下,学会了
“如果……那么……"**(如果这个特征变了,结果会怎样)。

这让 AI 从**“死记硬背的复读机”变成了“懂得推理的分析师”**,在面对复杂多变的现实世界时,能做出更准确、更可靠的判断。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →