DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项名为 DriverGaze360 的突破性研究，它就像是为自动驾驶汽车装上了一双能“看透”司机大脑的360 度全景透视镜。

为了让你轻松理解，我们可以把这项研究想象成在解决一个**“司机到底在看哪里”**的谜题。

1. 以前的“近视眼”问题

想象一下，以前的自动驾驶系统（或者研究司机注意力的旧方法）就像是一个戴着厚厚眼罩的司机。

视野狭窄：它们只能看到车头正前方的一小块区域（就像透过一个小窗户看世界）。
盲区巨大：如果司机转头看后视镜里的行人，或者在变道时瞥一眼侧面的自行车，这些系统就完全“瞎”了，根本不知道司机在关注什么。
后果：这导致自动驾驶汽车无法真正理解司机的意图，比如司机为什么突然减速（可能是在看侧面的狗，而不是前面的车）。

2. DriverGaze360：给司机戴上“全景 VR 眼镜”

为了解决这个问题，研究团队（来自德国人工智能研究中心 DFKI 等机构）做了一个超级实验：

360 度全景模拟：他们搭建了一个巨大的模拟驾驶舱，周围有 5 块屏幕，拼成了一个完整的 360 度环形视野。就像司机戴上了一副能看清前后左右所有方向的 VR 眼镜。
真人真测：他们找了 19 位真实的司机，让他们在这个模拟世界里开车。
眼球追踪：给每位司机戴上特制的“智能眼镜”，实时记录他们的眼球移动轨迹。
海量数据：最终收集了约 100 万张 带有眼球注视点的图片，涵盖了正常驾驶、紧急刹车、变道、看后视镜等各种场景。

这就好比： 以前我们只能看到司机盯着正前方的脸，现在我们不仅能看到脸，还能看到他的眼球在 360 度范围内是如何像雷达一样扫描整个世界的。

3. DriverGaze360-Net：不仅知道“看哪”，还知道“看谁”

有了数据，他们还需要一个聪明的“大脑”来分析这些数据。他们设计了一个叫 DriverGaze360-Net 的 AI 模型。

这个模型有一个超能力：它不仅仅是在猜“司机在看哪里（画个热力图）”，它还能同时猜出**“司机在看的具体物体是什么”**。

以前的 AI：就像是一个只会画图的画家，告诉你“司机盯着左边那个红点看”，但不知道红点是什么。
现在的 AI：像是一个懂交通的侦探。它不仅告诉你司机在看左边，还能告诉你：“哦，司机在看那个正在过马路的行人"或者“他在看后面的那辆卡车"。

核心技巧（辅助任务）：
为了让 AI 更聪明，研究人员给它加了一个“副业”——让它在预测视线时，顺便把看到的物体（车、人、红绿灯）也分割出来。这就好比让一个学生做题时，不仅要算出答案，还要把解题步骤里的关键数字圈出来。这种“边做边圈”的方法，让 AI 对空间的理解更深刻，预测更准确。

4. 为什么这很重要？（生活中的比喻）

想象你在开一辆全自动驾驶汽车：

没有这项技术：车不知道你在看后视镜，它可能会在你变道时突然加速，因为它以为前面很安全，完全没意识到你在观察侧后方的盲区。
有了这项技术：车通过 360 度摄像头和 AI 分析，发现你的眼睛正盯着侧后方的自行车。于是车会想：“哦，司机在确认安全，我要等一等，或者帮他减速。”

这就让自动驾驶从“冷冰冰的机器”变成了“懂人性的伙伴”。

5. 总结：这项研究的三大贡献

第一本“全景视线字典”：建立了世界上第一个大规模的 360 度司机视线数据集，填补了以前只能看正面的空白。
一个“双核”AI 模型：发明了 DriverGaze360-Net，能同时预测“视线位置”和“注视物体”，准确率吊打以前的所有方法。
让 AI 更懂人类：通过让 AI 学习识别司机关注的物体（如行人、车辆），让自动驾驶系统能更好地预测人类行为，从而在混合交通（有人开车也有自动驾驶车）中更安全、更透明。

一句话总结：
这项研究让自动驾驶汽车终于学会了**“像人类一样环顾四周”，不仅能看到路，还能看懂司机“为什么看那里”**，从而让未来的交通更加安全、智能和可信赖。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 《DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance》 的详细技术总结。

1. 研究背景与问题 (Problem)

预测驾驶员注意力对于开发可解释的自动驾驶系统以及理解混合交通流（人类与自动驾驶车辆共存）中的驾驶员行为至关重要。然而，现有的研究和数据集存在以下主要局限性：

视野狭窄 (Narrow FoV)： 现有方法主要依赖狭窄的前向摄像头，仅捕捉驾驶员视野的一小部分。这导致无法捕捉变道、转弯以及与侧方或后方物体（如行人、自行车）交互时的全空间上下文。
数据多样性不足： 现有数据集多关注短暂的安全关键事件，缺乏对连续、多方向注视动态的建模。
缺乏全景建模： 由于缺乏全向（360°）数据，现有的注意力预测模型难以处理全景输入，无法模拟驾驶员通过后视镜观察后方等真实驾驶行为。

2. 核心贡献 (Key Contributions)

本文提出了三个主要贡献，旨在解决上述问题：

A. DriverGaze360 数据集

这是首个大规模、全向（360°）的驾驶员注意力数据集。

规模与来源： 包含约 100 万帧 带有注视标注的数据，由 19 名 人类驾驶员在受控的模拟环境中（CARLA 模拟器）收集。
覆盖场景： 涵盖常规驾驶、目标导向导航（如路口、环岛）以及安全关键事件（如高速紧急制动、行人横穿、切入等）。
全向视角： 使用三块前屏和两块作为后视镜的画中画屏幕，构建了连续的 360° 视野。
数据特性： 包含 9 小时的驾驶录像，采样率为 30Hz，输出 5 路同步 RGB 图像（1280×720）。其中，后视镜注视占所有样本的 6%，符合真实世界数据。

B. DriverGaze360-Net 模型

提出了一种基于 Vision Transformer (ViT) 的注意力预测网络，具有独特的对象级引导机制。

架构设计： 基于 Video Swin Transformer (VST) 作为骨干网络，提取时空特征。
双解码器结构：
1. 注意力解码器： 生成全向的驾驶员注视概率图。
2. 辅助语义分割头 (Attended Object Decoder)： 联合学习被注视物体的语义类别（车辆、行人、交通灯等）。
创新点： 不同于传统方法仅输入全场景分割图，该模型通过辅助头显式地预测“被注视的物体”，从而在稀疏的全景注意力分布中增强空间感知能力。

C. 被注视物体提取流程 (Attended Object Extraction)

提出了一种将注视分布映射到物体实例的融合管道，用于生成监督信号。

将注视图二值化，与实例分割掩码（Instance Segmentation）进行交集运算。
仅保留与注视区域有重叠的物体实例（如特定的车辆或行人），将其标记为“被注视对象”，其余设为背景。这解决了全景场景中物体众多但驾驶员只关注少数目标的问题。

3. 方法论细节 (Methodology)

数据收集设置：
- 使用 Pupil Core 眼动仪（120Hz）追踪驾驶员视线。
- 通过 AprilTags 将眼动仪坐标系与模拟器图像平面进行校准（单应性变换）。
- 注视点通过时间窗口（30 帧）聚合，转换为 2D 高斯分布并归一化为概率图。
网络训练：
- 输入： 过去 T 帧（16 帧，约 0.5 秒）拼接的 RGB 图像序列。
- 损失函数： 联合优化注意力预测和对象分割。
  - 注意力损失 ( $L_{sal}$ )：结合 KL 散度 (KLD) 和负相关系数 (CC)。
  - 分割损失 ( $L_{seg}$ )：结合 Dice 系数、IoU 和交叉熵。
  - 总损失为两者的加权和。
评估指标：
- 注意力图：KLD, CC, SIM, NSS。
- 语义分割：Dice, IoU。

4. 实验结果 (Results)

在 DriverGaze360 上的表现：
- DriverGaze360-Net 在所有指标上均达到 State-of-the-Art (SOTA)。
- 相比次优模型，在 KLD、SIM、CC、NSS 指标上分别提升了 12.18%、4.24%、4.51%、4.94%。
- 定性分析显示，模型能准确捕捉驾驶员查看后视镜、侧方行人等复杂行为。
泛化能力 (DADA-2000 数据集)：
- 在狭窄视野的真实世界数据集 DADA-2000 上，该方法同样优于所有基线模型（包括 Dr(eye)VE, BDDA, FBLNet 等）。
- 在 SIM、CC、NSS 指标上分别提升 7.32%、4.55%、3.36%，证明了模型不仅适用于全景数据，也能有效迁移到传统前视场景。
消融实验 (Ablation Study)：
- 引入“被注视物体分割头 (AttObjSeg)"相比仅预测注意力图的基线，KLD 降低了 5.32%，NSS 提升了 2.45%。
- 证明显式地监督模型识别“被关注的物体”能显著提升全景注意力估计的准确性和空间一致性。

5. 意义与影响 (Significance)

填补数据空白： 首次提供了大规模、全向的驾驶员注视数据集，使研究能够覆盖变道、转弯及后视镜观察等以前无法建模的驾驶行为。
提升模型性能： 证明了在注意力预测中引入对象级语义引导（即让模型知道驾驶员在看什么物体）能显著改善稀疏注意力分布下的预测精度。
推动可解释性 AI： 该工作为开发可解释的自动驾驶系统奠定了基础，使系统能够理解人类驾驶员的意图（如通过观察后视镜判断变道意图），从而在混合交通场景中做出更安全、更透明的决策。
通用性： 该方法不仅适用于模拟的全景数据，在真实世界的狭窄视野数据上也表现优异，具有广泛的实际应用价值。

总结： 本文通过构建 DriverGaze360 数据集和提出 DriverGaze360-Net 模型，成功突破了传统驾驶员注意力研究的视野限制，利用对象级辅助任务显著提升了全向环境下的注意力预测精度，为未来自动驾驶系统理解人类驾驶员行为提供了重要的数据和方法论支持。