Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition

本文提出了一种基于多模态大语言模型(MLLM)的解耦框架,通过引入确定性生成机制、空间感知池化模块及单阶段确定性匹配方法,实现了与检测器无关且无需训练即可高效泛化的零样本人机交互检测。

Shiyu Xuan, Dongkai Wang, Zechao Li, Jinhui Tang

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让电脑“看懂”图片中人与物之间互动关系的新方法。为了让你更容易理解,我们可以把这项技术想象成招聘一位“超级实习生”来帮警察破案

1. 以前的难题:老式警探的局限

想象一下,以前的电脑视觉系统(AI)像是一个只受过特定训练的警探

  • 任务:他在案发现场(图片)里,既要找出嫌疑人(人)和受害者(物体),还要判断他们之间发生了什么(互动,比如“人拿着杯子”或“人骑着自行车”)。
  • 问题:这个警探的“大脑”和“眼睛”是绑在一起的。如果让他用新的眼镜(新的物体检测器)看东西,他就得重新培训,甚至可能因为不习惯新眼镜而变笨。而且,他只能认出训练时见过的互动。如果案发现场出现了一个他从未见过的动作(比如“人正在给自行车打气”),他就完全懵了,因为他的“互动词典”里没有这个词。

2. 新方法的核心理念:拆分工,请专家

这篇论文提出的新方法(DA-HOI)做了一个大胆的决定:把“找东西”和“猜动作”彻底分开

  • 第一步:找东西(交给任何侦探)
    不管用什么先进的“物体检测器”(比如现在的 Grounding-DINO 或 Yolo-World),只要能把图里的人和物体框出来就行。这就像雇佣了任何一位能画圈圈的侦探,先把嫌疑人和证物找出来。
  • 第二步:猜动作(请出“超级实习生”)
    找出来后,把“人”和“物”的信息打包,交给一位超级实习生——也就是论文中的多模态大语言模型(MLLM)
    • 这位实习生读过海量的书和图,见多识广。
    • 它不需要重新培训,就能理解“人拿着杯子”和“人骑着自行车”是什么意思,甚至能猜出它从未见过的互动。

3. 三大创新法宝

为了让这位“超级实习生”工作得更高效、更准确,作者给它配了三个神器:

法宝一:把“开放式问答”变成“选择题” (确定性生成)

  • 以前的做法:问实习生“他们在干什么?”,实习生可能会写出一篇小作文,或者只写一个动作,格式乱七八糟,很难统计。
  • 现在的做法:作者把任务变成了做选择题
    • 问:“看着这张图,他们在做以下哪个动作:A. 骑自行车 B. 拿着自行车 C. 坐在自行车上?”
    • 实习生只需要从列表里选,而且必须选出所有正确的选项。这样既避免了它胡编乱造,又能准确判断出一个人可能同时在做多个动作(比如既“拿着”又“看着”)。

法宝二:空间感知池化 (SAP) —— 给实习生戴“立体眼镜”

  • 问题:如果侦探画框画歪了(比如框里多了一点背景,或者没框住全部),实习生可能会看走眼。而且,人和物的相对位置(比如人在左,车在右)对判断动作很重要。
  • 解决:作者给实习生戴了一副立体眼镜。这副眼镜不仅看人和物的样子,还专门计算它们之间的距离、方向、重叠程度。即使框画得有点歪,这副眼镜也能帮实习生修正视角,准确判断出“人是在骑车”而不是“人站在车旁边”。

法宝三:一次过匹配 (One-Pass) —— 从“逐个面试”到“批量阅卷”

  • 问题:如果候选动作有 100 个,以前的方法要问实习生 100 次(问一次,算一次分),太慢了。
  • 解决:作者设计了一种**“批量阅卷”的方法。把 100 个选项一次性列在试卷上,让实习生只看一遍**,就能同时算出这 100 个选项的得分。这就像老师批改试卷,以前是一个个问学生,现在是一眼扫过全班,瞬间知道谁对谁错,速度提升了数倍。

4. 成果如何?

  • 零样本能力(Zero-Shot):就像让一个没去过南极的实习生去描述企鹅,他也能描述得很准。这种方法在没见过的互动上表现极佳。
  • 通用性:不管换什么“物体检测器”(侦探),这个“超级实习生”都能直接上岗,不需要重新培训。
  • 跨数据集:在 A 数据集上训练,去 B 数据集上考试,成绩依然吊打其他方法。

总结

这篇论文就像是在说:别把“找东西”和“懂动作”绑死在一起了! 我们让专业的检测器负责找,让博学的大语言模型负责猜,再给大模型配上“立体眼镜”和“快速阅卷”的技巧。这样,电脑就能更聪明、更灵活地看懂人类丰富多彩的生活场景了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →