Domain Generalization through Spatial Relation Induction over Visual Primitives

本文提出了PARSE,这是一种域泛化框架,它通过端到端架构显式地学习视觉基元及其可微的空间关系组合,从而提升分类鲁棒性,并在组合基准测试中取得了显著的性能提升。

原作者: Dat Nguyen, Duc-Duy Nguyen

发布于 2026-05-08✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Dat Nguyen, Duc-Duy Nguyen

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在尝试教一个机器人识别不同种类的鸟。你给它展示了成千上万张“红翅黑鹂”的照片,这些照片拍摄于阳光明媚的田野、雨中的森林,甚至包括一些卡通画。

大多数当前的人工智能模型通过记忆鸟类的颜色纹理来学习。它们可能会想:“如果它有红色的羽毛和黑色的身体,那它就是红翅黑鹂。”但这其实是一个陷阱。如果你给机器人展示一张卡通画,画中的鸟是蓝色的且是平面的,机器人就会感到困惑,因为“红色的羽毛”不见了。它之所以失败,是因为它依赖的是那些随环境变化而不稳定的细节。

这篇论文介绍了一种名为PARSE(面向域泛化的原语感知关系结构)的新方法来解决这个问题。以下是其工作原理的简单解释:

1. “乐高”方法:寻找原语

PARSE 不是将整个鸟类视为一大块颜色,而是将图像分解为小的、可重复使用的构建块,称为原语

  • 类比:不要把鸟看作一个单一物体,而要将其视为一组乐高积木的集合:一个“喙部件”、一个“翅膀部件”、一个“眼睛部件”和一个“尾巴部件”。
  • 工作原理:人工智能学会自主识别这些特定部位,而无需人类在周围画框。它会生成一张“热力图”,显示喙在哪里、翅膀在哪里等。关键在于,它学会的是喙的形状,而不仅仅是颜色。因此,即使卡通鸟是蓝色的,人工智能仍然能识别出“喙的形状”。

2. “规则手册”:理解关系

仅仅找到部件是不够的;你还需要知道它们是如何组合在一起的。一个有喙和翅膀的物体是鸟,但如果喙和翅膀漂浮在一起,中间没有身体,那就是荒谬的。

  • 类比:想象一本严格的鸟类构建规则手册。规则手册规定:“喙必须位于胸部上方"、“翅膀必须附着于身体两侧”、“眼睛必须在水平方向上对齐"。
  • 魔力所在:PARSE 使用数学上的“谓词”(规则)来检查这些关系。它会提出诸如“翅膀是否在尾巴的左侧?”或“眼睛是否与喙形成一个三角形?”之类的问题。这些规则是灵活的(软性的),意味着它们可以处理细微的变化,但它们对几何结构(布局)是严格的。

3. “侦探”:将所有内容整合在一起

当人工智能看到一张新图像时,它不会仅仅根据颜色进行猜测,而是像侦探一样行动:

  1. 它找到乐高部件(原语)。
  2. 它查阅规则手册,检查这些部件是否按照正确的模式排列。
  3. 如果“喙在胸部上方”且“翅膀在身体两侧”,即使颜色怪异或风格是卡通,人工智能也能确信这是一只鸟。

为什么这更好?

该论文认为,其他人工智能模型试图记忆鸟类的外观(这很容易改变),而 PARSE 记忆的是鸟类的结构(这保持不变)。

  • 结果:当在从照片变为卡通画和绘画的鸟类数据集上进行测试时,PARSE 的得分显著高于以往的方法。在一个困难的鸟类数据集上,它将准确率提高了 4.5% 以上。
  • 效率:尽管检查所有这些规则听起来很复杂,但该系统非常智能。它了解到某些规则对特定鸟类无用,并在训练后将其“剪除”(剔除)。这使得最终系统既快速又轻量,几乎与标准人工智能模型一样快。

总结

PARSE 教导人工智能通过理解部件如何组合在一起来识别事物,而不仅仅是它们看起来像什么。这之间的区别在于:是因为它是红色的而认出这是一辆车(如果车是蓝色的就会失败),还是因为它有车身下的轮子和顶部的挡风玻璃而认出这是一辆车(无论颜色或风格如何都能识别)。这使得人工智能在遇到新的、未见过的环境时更加 robust(稳健)和可靠。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →