ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

该论文提出了 ORIC 框架,通过构建上下文不协调的物体识别基准(ORIC-Bench)揭示了大视觉语言模型在此类场景下的性能退化与幻觉问题,并验证了基于该框架数据的视觉强化微调能有效提升模型的可靠性。

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的"AI 超级大脑”(大视觉语言模型)做了一次特殊的“压力测试”,专门考察它们在**“不合常理”**的场景下会不会犯迷糊。

我们可以把这篇论文的故事拆解成以下几个部分来理解:

1. 核心问题:AI 太依赖“常识”,反而容易“想当然”

现在的 AI(比如能看图说话的机器人)非常聪明,能回答“图里有什么”、“这是什么颜色”等问题。但它们有一个致命的弱点:太依赖“经验”和“常识”了。

  • 比喻:想象一个 AI 就像一个**“老练的导游”**。
    • 如果你带它去足球场,问它“这里有足球吗?”,它会立刻自信地说“有”,因为常识告诉它足球场通常有球。
    • 但如果你带它去足球场,问它“这里有微波炉吗?”,它可能会因为“足球场通常没有微波炉”这个常识,直接忽略掉图里真的放着一个微波炉的事实,或者反过来,在办公室里,它明明没看到球,却因为你问“这里有球吗?”,就因为它觉得“办公室可能有球”而瞎编一个出来。

论文发现,当**“眼前的真实情况”(比如图里有个微波炉)和“大脑里的常识预期”(比如这是足球场,不该有微波炉)发生冲突时,AI 就会“晕头转向”,要么漏看真实存在的东西,要么瞎编不存在的东西。这种现象被称为“上下文不协调” (Contextual Incongruity)**。

2. 解决方案:打造了一个“陷阱题库” (ORIC)

为了测试 AI 到底在什么情况下会“翻车”,作者们设计了一个叫 ORIC 的框架,专门制造这种“陷阱题”。

  • 怎么造陷阱?

    • 策略一(LLM 引导): 让 AI 自己当“出题人”。比如给一张图,让 AI 想想“在这个场景里,什么东西出现会非常奇怪?”(例如:在厨房里看到一只大象)。然后专门问 AI 图里有没有大象。
    • 策略二(CLIP 引导): 找一张跟原图很像的图,看看图里没有什么东西,但这些东西在逻辑上又很像会出现。比如原图是厨房,找一张像厨房的图,发现图里有烤箱,但原图没有。然后问 AI:“原图里有烤箱吗?”(AI 容易因为太像而瞎说“有”)。
  • 成果:他们利用这个框架,从著名的 MSCOCO 数据集中,挖出了 1000 道“陷阱题”,组成了 ORIC-Bench 评测集。这就像给 AI 出了一套专门考察“是否会被常识带偏”的试卷

3. 测试结果:AI 们集体“挂科”

作者们拿这个新题库去考了 18 种 目前最顶尖的 AI 模型(包括 GPT-5、Qwen 等)。

  • 结果很惨烈
    • 在普通的题目上,这些 AI 能拿 90 多分。
    • 一到了 ORIC 的“陷阱题”上,分数直接腰斩,很多模型只能拿到 60 多分,甚至更差。
    • 比喻:就像一群学霸,做常规数学题全对,但一旦题目里混入了一个“看似简单实则逻辑陷阱”的脑筋急转弯,他们反而因为太自信而答错了。
    • 发现:即使是像 GPT-5 这样的“超级大脑”,在面对“办公室里的火车”或者“棒球场上的汽车”这种反常识场景时,也会漏看或者瞎编

4. 怎么救?给 AI 装上“证据核查员” (Visual-RFT)

既然知道 AI 是因为太依赖“常识”而忽略“证据”,作者们想了一个办法来训练它。

  • 方法:他们用了 Visual-RFT(视觉强化微调)。

    • 比喻:这就像给 AI 请了一位**“严厉的教练”**。
    • 以前 AI 做题,只要猜对了就给分。
    • 现在,教练要求 AI 必须**“先找证据,再下结论”**。如果 AI 说“有”,它必须能指着图里的像素说“看,这里有个微波炉”。如果它瞎编,教练就给它“惩罚”(负奖励)。
    • 通过这种**“基于证据的强化训练”,只用了 600 道 这样的陷阱题,AI 的表现就突飞猛进**。
  • 效果

    • 经过训练的 AI(Qwen3-VL),不仅在这个“陷阱题库”上分数提高了,在其他类似的评测(如 HallusionBench)上也变得更靠谱、更像个真人,不再轻易被常识带偏。

5. 总结与意义

这篇论文告诉我们:

  1. AI 并不完美:它们很擅长处理“顺理成章”的事,但一旦遇到“反常理”的情况,就会变得很脆弱。
  2. 新标准:以前我们只测 AI 认不认识东西,现在我们要测 AI 能不能在“不合常理”的情况下,依然相信眼睛看到的证据
  3. 未来方向:通过这种针对性的训练,我们可以让 AI 变得更诚实、更可靠,特别是在机器人、自动驾驶等需要高度准确性的领域,避免因为“想当然”而犯错。

一句话总结
这篇论文给 AI 出了一套**“反常识”的脑筋急转弯**,发现现在的 AI 很容易**“想当然”地犯错;然后通过“教它们只相信证据”**的训练方法,成功让 AI 变得更聪明、更靠谱了。