Large Multimodal Models as General In-Context Classifiers

本文论证了大型多模态模型(LMM)通过上下文学习在分类任务上可媲美甚至超越对比式视觉语言模型,并提出了无需训练的 CIRCLE 方法,通过迭代优化伪标签解决了开放世界场景下上下文信息不完美的问题,确立了 LMM 作为统一分类器的潜力。

Marco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:在让 AI 识别图片内容时,我们应该用哪种类型的“大脑”?

简单来说,作者发现了一个被大家忽略的真相:大型多模态模型(LMMs,比如现在的各种聊天机器人)其实非常擅长做分类任务,只要给它们一点“提示”和“例子”,它们甚至能打败专门为此设计的传统模型。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这篇论文的核心内容:

1. 两个角色的对决:老练的“图书管理员”vs. 聪明的“通才学生”

  • 传统模型(CLIP/VLM):像一位经验丰富的“图书管理员”。
    • 特点:他手里有一本非常精确的目录(预定义的类别列表)。如果你给他一张图,问他“这是猫还是狗?”,他能迅速查表,准确率很高。
    • 局限:如果你问他“这是什么奇怪的生物?”,而他目录里没有这个生物,他就卡住了,或者只能瞎猜。他不太擅长处理没见过的、开放的问题。
  • 大型多模态模型(LMM):像一位聪明的“通才学生”。
    • 特点:他读过很多书,见过很多图,理解力很强,能写诗、能画画、能回答问题。
    • 误解:以前大家觉得,让他做“选择题”(分类)太屈才了,而且他做选择题反而不如图书管理员准。
    • 真相:这篇论文发现,只要给这位学生一点**“上下文”(Context)**,比如给他看几个类似的例子,告诉他“看,这个叫猫,那个叫狗”,他瞬间就能进入状态,表现得比图书管理员还棒!

2. 核心发现:给点“例子”,学生就醒了

论文首先测试了**“封闭世界”**(即答案在已知列表里,比如“这是猫、狗还是鸟?”):

  • 以前:如果不给例子,直接让“通才学生”做题,他确实不如“图书管理员”准。
  • 现在:作者给“通才学生”看了几个**“示例题”**(比如:这张图是猫,那张图是狗)。
  • 结果:只要看了几个例子,这位学生的成绩就突飞猛进,甚至超过了那个专门的“图书管理员”。
  • 比喻:就像你让一个博学的教授做小学选择题,如果不给任何提示,他可能因为想太多而选错;但如果你给他看两道例题,告诉他“哦,原来这题考的是这个逻辑”,他马上就能拿满分。

3. 真正的挑战:开放世界(Open-World)

接下来的挑战更难了:“开放世界”

  • 场景:你给 AI 一张图,问“这是什么?”,但没有给任何选项列表。它必须自己说出名字。
  • 问题:这时候,如果直接让“通才学生”看几个没标签的图(比如一堆乱序的图片),它可能会糊涂,甚至产生幻觉(胡说八道)。
  • 原因:就像给一个学生看一堆没答案的练习题,他可能不知道该怎么归类,或者把“苹果”叫成“梨”。

4. 作者的绝招:CIRCLE(自我修正的“循环学习”)

为了解决“开放世界”的问题,作者发明了一个叫 CIRCLE 的方法。

  • 比喻:想象你在教一个学生做开放题。

    1. 第一步(伪标签):你先让学生自己猜一下那堆练习题的答案(比如猜图 A 是苹果,图 B 是梨)。这时候他可能会猜错。
    2. 第二步(循环修正):这是 CIRCLE 的精髓。你让学生互相学习
      • 你问学生 A:“看着图 B、C、D 的答案,你觉得图 A 到底是什么?”
      • 学生 A 发现:“哦,原来图 B 和 C 都是水果,那图 A 肯定也是水果,而且更具体点,是苹果。”
      • 然后你再用修正后的答案去问学生 B,让他重新思考图 B。
    3. 结果:通过这种**“互相讨论、自我修正”**的循环过程,学生们的答案变得越来越精准,越来越一致。
  • 效果:这种方法不需要人工去标注答案(不需要老师批改),完全靠模型自己“内卷”修正。实验证明,用了 CIRCLE 的“通才学生”,在开放世界任务中彻底碾压了传统的“图书管理员”。

5. 总结:这篇论文告诉我们什么?

  1. 不要低估大模型:以前大家觉得大模型(LMM)做分类不行,那是没用对方法。只要给它们**“上下文”**(例子),它们就是分类高手。
  2. CIRCLE 是神器:在不知道答案列表的情况下,让模型通过**“自我修正”**来整理思路,比直接让它瞎猜要靠谱得多。
  3. 未来趋势:我们可能不再需要为每个任务(比如识别猫、识别车、识别花)训练专门的模型。一个通用的、聪明的“通才学生”,配合上 CIRCLE 这种**“自我学习”**的技巧,就能搞定所有分类任务。

一句话总结
这篇论文就像是在说:“别只盯着那个只会查字典的图书管理员了,给那个博学的学生几个例子,再让他自己互相讨论修正一下,他不仅能学会分类,还能把分类做得比谁都快、比谁都准!”

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →