DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

本文提出了 DHECA-SuperGaze 方法,通过结合超分辨率技术与双路头眼交叉注意力机制,并修正了 Gaze360 数据集的标注错误,显著提升了非受控环境下视线估计的精度与泛化能力。

Franko Šikić, Donik Vršnak, Sven Lončarić

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DHECA-SuperGaze 的新技术,它的核心任务是**“猜眼神”**(即通过摄像头判断一个人正在看哪里)。

想象一下,你正在玩一个非常复杂的捉迷藏游戏,或者在监控室里盯着屏幕看司机有没有走神。以前的技术就像是一个近视眼且有点迷糊的侦探,在光线不好、距离很远或者人转头很大的时候,很容易猜错对方在看哪。

这篇论文提出的新方法,就像给这位侦探配上了**“超级望远镜”“读心术搭档”**,让他能更精准地猜出眼神的方向。

下面我用几个生动的比喻来拆解这项技术的三大亮点:

1. 给模糊的照片“美颜”:超分辨率技术 (Super-Resolution)

问题: 在现实生活中(比如开车时),摄像头拍到的脸往往很模糊,或者离得很远,眼睛的细节根本看不清。这就好比侦探拿着一张只有几个像素点的模糊照片去破案,很难看清瞳孔的位置。

解决方案: 作者给系统装了一个**“超级修图师”**(超分辨率模型)。

  • 怎么做: 当系统拿到一张模糊的头部照片时,这个“修图师”会利用人工智能,把模糊的图像“脑补”成高清大图。
  • 效果: 原本看不清的毛孔、睫毛和眼球细节都变得清晰可见。这就好比把侦探手里的模糊小照片,瞬间变成了一张高清的 4K 照片,让他能看清细节。

2. 让“头”和“眼”开一场双向会议:双头眼交叉注意力 (DHECA)

问题: 以前很多系统只看脸(头)或者只看眼睛。但这有个大漏洞:有时候头转过去了,但眼睛还盯着原来的方向(比如你转头看后面,但眼睛还盯着前面的屏幕)。如果只盯着头看,就会猜错;如果只盯着眼睛看,又可能因为角度太偏而看不清。

解决方案: 作者设计了一个**“双核大脑”,让“头”和“眼”这两个部门进行双向沟通**。

  • 怎么做: 系统有两个分支,一个专门分析“头”的朝向,一个专门分析“眼睛”的细节。然后,它们通过一种叫“交叉注意力”的机制互相交流。
    • “头”部门告诉“眼”部门:“嘿,我的头现在转了 90 度,你要注意调整视角。”
    • “眼”部门告诉“头”部门:“虽然你转过去了,但我看到瞳孔还在左边,所以视线其实没变。”
  • 效果: 这种**“互相商量”**的机制,比单打独斗要聪明得多。就像两个侦探,一个负责看大局(头),一个负责看细节(眼),两人一交流,就能精准锁定目标,不再被假动作迷惑。

3. 纠正“错题本”:修复数据集错误

问题: 在训练 AI 之前,需要给它看很多带答案的练习题(数据集)。作者发现,其中一个非常著名的“题库”(Gaze360 数据集)里,有些题目的答案标错了。比如,图片里标的是左边那个人的眼睛,但答案却说是右边那个人的视线。这就好比老师教学生做题,却把答案给错了,学生当然学不好。

解决方案: 作者像**“严谨的校对员”**一样,重新检查了成千上万张图片。

  • 怎么做: 他们发现有些图片里,标注框框住了路人甲,而不是主角。于是,他们把这些错误的标注全部修正过来,重新整理了一份“标准答案”。
  • 效果: 用修正后的“错题本”重新训练,所有的 AI 模型(包括他们自己的和别人的)成绩都提高了。这证明了**“数据质量”比“模型复杂度”更重要**。

总结:这项技术有什么用?

这项技术不仅仅是为了“猜眼神”而猜眼神,它在现实生活中有很多大用处:

  • 司机安全: 就像给汽车装了一个**“防走神保镖”**,能精准判断司机是不是在看手机或者发呆,哪怕司机戴着墨镜或光线很暗。
  • 在线考试: 就像**“电子监考老师”**,能发现学生是不是在偷偷看屏幕以外的地方作弊。
  • 残障辅助: 对于身体无法动弹的人,这项技术可以让他们**“用眼神控制电脑”**,就像用意念一样轻松。
  • 商业分析: 在商店里,分析顾客盯着哪个商品看,从而了解他们的喜好。

一句话总结:
这篇论文通过把模糊照片变清晰让头和眼互相配合、以及修正训练数据的错误,创造了一个更聪明、更精准的“眼神追踪器”,让机器在复杂环境下也能像人一样敏锐地捕捉视线。