GazeMoE: Perception of Gaze Target with Mixture-of-Experts

该论文提出了 GazeMoE 框架,通过在大模型中引入混合专家(MoE)模块自适应地融合眼动、头部姿态及上下文等多模态线索,并结合类别平衡损失与数据增强策略,有效解决了机器人视线目标估计中的泛化与类别不平衡难题,在基准测试中取得了最先进性能。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GazeMoE 的新人工智能系统,它的核心任务是:教机器人或电脑“看懂”一个人到底在看哪里。

想象一下,你走进一个房间,机器人想知道你是盯着墙上的画看,还是在看窗外飞过的鸟,甚至是看向房间外(比如门外的走廊)。以前的电脑很难做到这一点,但 GazeMoE 让这件事变得非常聪明和准确。

下面我用几个生活中的比喻来为你拆解这个技术:

1. 核心难题:眼睛会“骗人”,环境很复杂

以前,电脑看人眼时,就像是一个死板的侦探。如果人转过头,或者眼睛被头发挡住,或者光线太暗,电脑就懵了。

  • 现实情况:人看东西不仅仅靠眼睛。有时候你头歪了,有时候你伸手指了一下,有时候周围的环境(比如有人在喊你)也会吸引你的注意力。
  • 难点:不同的场景需要不同的线索。在明亮的客厅,眼睛最重要;在昏暗的角落,头部的朝向可能更关键;如果人看向镜头外,电脑甚至得猜“外面有什么”。

2. 解决方案:GazeMoE 的“专家会诊”模式

这就是论文中最酷的部分:Mixture-of-Experts (MoE,混合专家)

想象 GazeMoE 不是一个人在工作,而是一个超级医疗团队

  • 冻结的基础模型 (DINOv2):这就像一位经验丰富的老教授,他看过无数照片,脑子里装着关于“人”、“眼睛”、“头”和“场景”的通用知识。但他不负责做最后的决定,他只是提供基础情报。
  • 专家小组 (The Experts):在老教授旁边,有4 位专科医生(专家):
    1. 眼科专家:专门看眼睛的动向。
    2. 骨科专家:专门看头部的姿势。
    3. 肢体语言专家:专门看手势和身体动作。
    4. 环境侦探:专门看周围的环境线索(比如谁在说话,哪里有光)。
  • 智能调度员 (The Router):这是 GazeMoE 的大脑。当一张新照片进来时,调度员会迅速判断:“这张图里眼睛被挡住了,但头很明显,环境也很亮。”于是,他只叫醒“骨科专家”和“环境侦探”来工作,让其他专家休息。

为什么这样好?
以前的模型是“大锅炖”,不管什么情况,所有线索都一股脑塞给大脑,容易混乱。GazeMoE 是按需点菜,既省力气(计算快),又精准(只关注有用的线索)。

3. 特殊技能:处理“看不见的目标”

很多机器人只能猜你看着屏幕里的东西。但 GazeMoE 还有一个厉害的功能:它能判断你是不是在看屏幕外面(Out-of-frame)。

  • 比喻:就像你坐在电影院,如果电影里的人看向银幕外,以前的电脑会困惑“他在看哪?”。GazeMoE 会直接告诉你:“他在看银幕外面,可能是在看旁边的观众或出口。”
  • 技术秘诀:为了做到这一点,作者设计了一种特殊的“平衡计分卡”(损失函数),专门惩罚那些容易搞错的少数情况(比如看向外面的人比较少,但很重要),强迫模型去认真学习这些难懂的案例。

4. 训练方法:给模型“开小灶”

为了让这个系统更聪明,作者给它做了大量的特训(数据增强)

  • 随机裁剪:把照片切掉一部分,强迫模型不能只盯着脸看,要学会看周围。
  • 变色变暗:把照片调成黑白、变模糊、加噪点。这就像让士兵在雨天、雾天、黑夜都进行演习,这样到了真实世界(比如鱼眼镜头拍的照片、小孩乱动的场景)它就不会慌了。

5. 成果如何?

在所有的测试中(包括看小孩、看 360 度全景图、甚至看鱼眼镜头拍的照片),GazeMoE 都打败了以前的所有冠军

  • 它不仅能准确指出你盯着哪里(误差很小)。
  • 它还能准确判断你是在看屏幕内,还是看屏幕外。
  • 它的速度很快,一秒钟能处理 13 张图,完全够机器人实时互动使用。

总结

GazeMoE 就像是一个拥有“超级直觉”的机器人助手。它不再死板地只盯着眼睛看,而是像人类一样,懂得根据情况灵活调动“眼睛、头部、手势、环境”这些线索。它不仅能看懂你在看什么,还能猜出你看向哪里,甚至能理解那些“看向画外”的微妙意图。

这项技术未来可以让机器人更自然地与人交流,比如自动驾驶汽车能预判行人要看哪里,或者智能家居能知道主人是想拿桌上的水杯,还是想关窗。