EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

该论文介绍了 EgoCampus 数据集及其配套的 EgoCampusNet 模型,利用 Meta Project Aria 眼镜在户外校园环境中采集了包含 80 多名行人眼动数据的大规模数据集,旨在解决真实导航场景下的行人视觉注意力预测问题。

Ronan John, Aditya Kesari, Vincenzo DiMatteo, Kristin Dana

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EgoCampus 的新项目,它就像是为机器人和人工智能打造的一副“人类视觉眼镜”。

简单来说,这项研究想回答一个问题:当我们在校园里走路时,眼睛到底在看哪里?为什么看那里?

为了搞清楚这件事,研究团队做了一件很酷的事:他们给 80 多位志愿者戴上了特制的智能眼镜,让他们在校园里走了 25 条不同的路线,总共走了 6 公里。

下面我用几个生动的比喻来拆解这篇论文的核心内容:

1. 数据收集:给世界装上“第一人称摄像头”

想象一下,你戴着一副超级智能的隐形眼镜(实际上是 Meta 的 Project Aria 眼镜),这副眼镜不仅能像普通相机一样拍下你眼前的风景,还能实时追踪你的眼球转动

  • 以前:科学家研究“看哪里”,通常是让人坐在实验室里盯着屏幕上的图片看。这就像在鱼缸里研究鱼怎么游泳,虽然安全,但和在大海里游泳完全不同。
  • 现在:EgoCampus 数据集记录了人们在真实世界(大学校园)里走路时的真实视线。这不仅仅是视频,还包含了你的心跳(惯性传感器)、位置(GPS),甚至是你转头时眼镜感受到的震动。
  • 规模:这就像收集了 80 多个人的“走路记忆”,总共 32 小时的视频,涵盖了各种天气、时间和路况。

2. 核心发现:我们走路时都在看什么?

研究人员分析了这些视频,发现了一个有趣的现象:

  • 大部分时间:我们的眼睛像探照灯一样,主要盯着正前方(也就是我们要走的路)。这被称为“中心偏差”。
  • 当我们转头时:我们的注意力会像雷达一样扫描环境。这时候,我们主要看两类东西:
    1. 路标:比如建筑物、路灯、大树(用来确认“我在哪”)。
    2. 导航线索:比如其他行人、路口的变化(用来决定“往哪走”)。

3. 人工智能模型:EgoCampusNet(给 AI 装上“直觉”)

有了数据,团队训练了一个叫 EgoCampusNet 的 AI 模型。你可以把它想象成一个经验丰富的老向导

  • 它的超能力:当你给它看一段走路视频(过去的画面),它就能预测你下一秒眼睛会看向哪里。
  • 它是怎么学的:它不像普通 AI 那样只看一张静止的照片。它像人类一样,会结合“过去的经验”和“现在的画面”
    • 比喻:就像你开车时,不仅看眼前的路,还会根据刚才看到的红绿灯和旁边的车,预判下一秒该看哪里。
  • 它的优势:这个模型很“轻量级”,不需要巨大的电脑就能跑,而且比很多现有的大模型更擅长处理这种“边走边看”的动态场景。

4. 为什么要这么做?(这对我们有什么用?)

这项研究不仅仅是为了好玩,它对未来的机器人和自动驾驶有巨大的帮助:

  • 让机器人更像人:现在的扫地机器人或送货机器人,走路时经常撞到人,因为它们不知道人眼在看哪。如果机器人能像 EgoCampusNet 一样,预判行人会看哪里,它就能更聪明地避让,甚至知道什么时候该停下来等行人。
  • 更安全的导航:想象未来的自动驾驶汽车,它不仅能看见路,还能理解行人的意图(比如行人看向左边,可能下一秒就要过马路)。

总结

这就好比研究人员给机器人装上了人类的“视觉直觉”

以前,机器人看世界是冷冰冰的像素点;现在,通过 EgoCampus 数据集和模型,机器人开始理解:“哦,这个人转头看那个路牌,说明他在找方向,我得小心点,别挡着他。”

这项研究把“走路”和“看东西”这两件我们习以为常的小事,变成了帮助机器理解人类行为的关键钥匙。未来,当你和机器人走在校园里时,它们可能会比你想象的更懂你。