PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

本文提出了 PO-GUISE+,一种利用驾驶员姿态和交互物体信息引导 Transformer 令牌选择的多任务视频模型,旨在以显著降低的计算成本实现高效的分心驾驶行为识别,并在多个数据集及 Jetson 边缘计算平台上验证了其优越的性能与效率。

Ricardo Pizarro, Roberto Valle, Rafael Barea, Jose M. Buenaposada, Luis Baumela, Luis Miguel Bergasa

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PO-GUISE+ 的新技术,它的核心任务是让车载电脑能更聪明、更省电地识别司机是否在“分心”(比如看手机、吃东西、打电话等)。

为了让你轻松理解,我们可以把这项技术想象成一位极其高效的“交通安保队长”

1. 背景:为什么需要这位“队长”?

现在的自动驾驶和辅助驾驶系统非常依赖摄像头来监控司机。以前的方法(基于 CNN)像是一个拿着放大镜的老侦探,看什么都很仔细,但速度很慢,而且容易累(计算量太大,车载电脑带不动)。

后来,大家开始用一种叫 Transformer 的超级大脑(就像现在的 AI 大模型)。它非常聪明,看视频能一眼看出司机在干什么,准确率极高。但是,这个“超级大脑”有个大毛病:它太“贪吃”了

  • 比喻:想象一下,这个大脑在看一段 3 秒的视频时,会把视频切成几千个小方块(Token),然后每一个小方块都要仔细研究一遍。这就好比你要在一场 1000 人的舞会上找出谁在偷吃东西,结果你决定把每一个人都抓过来单独审问一遍。虽然肯定能抓到人,但你的“警力”(计算资源)根本不够用,车上的小电脑会直接死机。

2. 核心创新:PO-GUISE+ 是怎么工作的?

PO-GUISE+ 就像给这位“超级大脑”请了一位精明的“副队长”。这位副队长不直接审问所有人,而是学会了**“抓重点”**。

A. 以前的“抓重点”方法(PO-GUISE)

以前的方法会看两个线索来筛选人:

  1. 司机的姿势(比如头是不是歪了,手是不是抬起来了)。
  2. 司机的动作类别(比如是不是在“打电话”)。
  • 比喻:副队长说:“大家注意,只审问那些姿势奇怪或者看起来像在打电话的人。”
  • 缺点:如果司机手里拿着手机,但姿势很端正(比如放在腿上),或者手里拿着一个水瓶(看起来像喝水),副队长可能会漏掉,因为它只盯着“人”看,没盯着“东西”看。

B. 现在的“抓重点”方法(PO-GUISE+)

PO-GUISE+ 给副队长加了一个新技能“物体交互感知”
现在,副队长不仅看司机的姿势,还死死盯着司机手里拿的东西(手机、水瓶、方向盘、书本等)。

  • 比喻:副队长现在会这样指挥:“不管姿势怎么样,只要看到司机手里拿着手机,或者手伸向副驾驶的背包,立刻重点审问!其他没拿东西、没互动的背景(比如车窗外的树、空座位)直接忽略,不用审问!”

这就是论文的核心: 通过同时关注**“人(姿势)”“物(交互物体)”**,模型能更精准地决定哪些视频片段需要计算,哪些可以直接扔掉。

3. 它带来了什么好处?

① 既快又准(效率与精度的平衡)

  • 以前:为了省电,减少计算量,准确率就会大幅下降(就像为了省警力,随便放走了一些嫌疑人)。
  • 现在:因为副队长知道“物体”很重要,所以即使它只审问**30%的人(大幅减少计算量),它依然能抓住99%**的坏人。
  • 数据:在同样的电脑配置下,PO-GUISE+ 比以前的方法快了 30%,而且准确率更高

② 能在“小电脑”上跑(车载部署)

论文作者真的把这套系统装在了 NVIDIA Jetson(一种常用于机器人的小型电脑)上测试。

  • 比喻:以前的“超级大脑”需要一辆大卡车(高性能服务器)才能跑,现在 PO-GUISE+ 只需要一辆小轿车(车载电脑)就能跑得飞快,甚至能实时处理视频,不会卡顿。

③ 多任务处理(一鱼多吃)

这个系统不仅能告诉你“司机在分心”,还能顺便告诉你:

  • 司机的手在哪里(姿势)。
  • 司机在摸什么东西(物体位置)。
  • 比喻:就像那个安保队长,在抓小偷的同时,还能顺手画一张“嫌疑人行动路线图”和“作案工具分布图”,不需要再请第二个侦探。

4. 总结:这为什么重要?

想象一下,未来的汽车里装了这个系统:

  • 当你低头看手机时,系统立刻发现,因为“手 + 手机”的交互被精准捕捉到了。
  • 当你伸手去拿后座的包时,系统也能识别,因为“手 + 包”的交互被锁定了。
  • 它不需要消耗巨大的电力,不会让汽车电池很快耗尽,也不会让车载电脑发热死机。

一句话总结
PO-GUISE+ 就像给 AI 装了一双**“火眼金睛”,让它不再盲目地看遍视频里的每一个角落,而是聪明地只盯着“司机”和“司机手里的东西”**。这让 AI 在识别司机分心时,更准、更快、更省电,让安全驾驶系统真正能装进每一辆普通汽车里。