PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PO-GUISE+ 的新技术，它的核心任务是让车载电脑能更聪明、更省电地识别司机是否在“分心”（比如看手机、吃东西、打电话等）。

为了让你轻松理解，我们可以把这项技术想象成一位极其高效的“交通安保队长”。

1. 背景：为什么需要这位“队长”？

现在的自动驾驶和辅助驾驶系统非常依赖摄像头来监控司机。以前的方法（基于 CNN）像是一个拿着放大镜的老侦探，看什么都很仔细，但速度很慢，而且容易累（计算量太大，车载电脑带不动）。

后来，大家开始用一种叫 Transformer 的超级大脑（就像现在的 AI 大模型）。它非常聪明，看视频能一眼看出司机在干什么，准确率极高。但是，这个“超级大脑”有个大毛病：它太“贪吃”了。

比喻：想象一下，这个大脑在看一段 3 秒的视频时，会把视频切成几千个小方块（Token），然后每一个小方块都要仔细研究一遍。这就好比你要在一场 1000 人的舞会上找出谁在偷吃东西，结果你决定把每一个人都抓过来单独审问一遍。虽然肯定能抓到人，但你的“警力”（计算资源）根本不够用，车上的小电脑会直接死机。

2. 核心创新：PO-GUISE+ 是怎么工作的？

PO-GUISE+ 就像给这位“超级大脑”请了一位精明的“副队长”。这位副队长不直接审问所有人，而是学会了**“抓重点”**。

A. 以前的“抓重点”方法（PO-GUISE）

以前的方法会看两个线索来筛选人：

司机的姿势（比如头是不是歪了，手是不是抬起来了）。
司机的动作类别（比如是不是在“打电话”）。

比喻：副队长说：“大家注意，只审问那些姿势奇怪或者看起来像在打电话的人。”
缺点：如果司机手里拿着手机，但姿势很端正（比如放在腿上），或者手里拿着一个水瓶（看起来像喝水），副队长可能会漏掉，因为它只盯着“人”看，没盯着“东西”看。

B. 现在的“抓重点”方法（PO-GUISE+）

PO-GUISE+ 给副队长加了一个新技能：“物体交互感知”。
现在，副队长不仅看司机的姿势，还死死盯着司机手里拿的东西（手机、水瓶、方向盘、书本等）。

比喻：副队长现在会这样指挥：“不管姿势怎么样，只要看到司机手里拿着手机，或者手伸向副驾驶的背包，立刻重点审问！其他没拿东西、没互动的背景（比如车窗外的树、空座位）直接忽略，不用审问！”

这就是论文的核心： 通过同时关注**“人（姿势）”和“物（交互物体）”**，模型能更精准地决定哪些视频片段需要计算，哪些可以直接扔掉。

3. 它带来了什么好处？

① 既快又准（效率与精度的平衡）

以前：为了省电，减少计算量，准确率就会大幅下降（就像为了省警力，随便放走了一些嫌疑人）。
现在：因为副队长知道“物体”很重要，所以即使它只审问**30%的人（大幅减少计算量），它依然能抓住99%**的坏人。
数据：在同样的电脑配置下，PO-GUISE+ 比以前的方法快了 30%，而且准确率更高。

② 能在“小电脑”上跑（车载部署）

论文作者真的把这套系统装在了 NVIDIA Jetson（一种常用于机器人的小型电脑）上测试。

比喻：以前的“超级大脑”需要一辆大卡车（高性能服务器）才能跑，现在 PO-GUISE+ 只需要一辆小轿车（车载电脑）就能跑得飞快，甚至能实时处理视频，不会卡顿。

③ 多任务处理（一鱼多吃）

这个系统不仅能告诉你“司机在分心”，还能顺便告诉你：

司机的手在哪里（姿势）。
司机在摸什么东西（物体位置）。
比喻：就像那个安保队长，在抓小偷的同时，还能顺手画一张“嫌疑人行动路线图”和“作案工具分布图”，不需要再请第二个侦探。

4. 总结：这为什么重要？

想象一下，未来的汽车里装了这个系统：

当你低头看手机时，系统立刻发现，因为“手 + 手机”的交互被精准捕捉到了。
当你伸手去拿后座的包时，系统也能识别，因为“手 + 包”的交互被锁定了。
它不需要消耗巨大的电力，不会让汽车电池很快耗尽，也不会让车载电脑发热死机。

一句话总结：
PO-GUISE+ 就像给 AI 装了一双**“火眼金睛”，让它不再盲目地看遍视频里的每一个角落，而是聪明地只盯着“司机”和“司机手里的东西”**。这让 AI 在识别司机分心时，更准、更快、更省电，让安全驾驶系统真正能装进每一辆普通汽车里。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于高效驾驶员动作识别的学术论文的技术总结。论文提出了一种名为 PO-GUISE+ 的新方法，旨在解决基于 Transformer 的驾驶员分心检测模型在车载设备上计算成本过高的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心挑战：驾驶员分心（如使用手机、吃东西、疲劳等）是交通事故的主要原因之一。虽然基于 Transformer 的视频模型在人类动作识别任务中表现优异，但其二次方计算复杂度（Quadratic Complexity）导致计算资源消耗巨大，难以在车载嵌入式系统（如 Jetson 平台）上实时部署。
现有方法的局限：
- 现有的 Token 剪枝（Token Pruning）或选择技术（如 Top-K）通常仅基于类别 Token 或人体姿态（Pose）进行筛选。
- 在驾驶员分心检测中，物体交互（Object Interaction，如手持手机、拿水瓶）是判断分心的关键线索。现有方法忽略了物体交互信息，导致在低计算预算下（即大幅剪枝时）精度下降明显。
- 许多现有方法依赖外部检测器（如姿态估计器或物体检测器）来生成辅助信息，增加了推理延迟和系统复杂性。

2. 方法论 (Methodology)

作者提出了 PO-GUISE+（Pose and Object Guided Transformer Token Selection），这是一种多任务视频 Transformer 架构，旨在通过姿态和物体引导的 Token 选择来平衡效率与精度。

2.1 核心架构

基础模型：基于预训练的 ViT（Vision Transformer）骨干网络（如 VideoMAEv2 和 InternVideo2）。
多任务学习：模型同时执行三个任务：
1. 驾驶员分心分类（Distraction Classification）。
2. 驾驶员姿态估计（Driver Pose Estimation）。
3. 交互物体定位（Interacting Object Localization）。
热力图 Token (Heatmap Tokens)：
- 引入可学习的 Token ( $X_{hm}$ ) 来生成热力图，而非依赖外部检测器。
- 生成运动热力图 (Motion Heatmaps)：通过对视频片段中所有帧的热力图进行平均，捕捉人体关节和交互物体在整个时间序列中的运动轨迹。
- 这种表示法不仅包含姿态信息，还显式地编码了物体交互位置。

2.2 姿态与物体引导的 Token 选择模块 (PO-GUISE+ Module)

这是该方法的创新核心，包含两个步骤：

Token 剪枝 (Pruning)：
- 根据视觉 Token ( $X_{vis}$ ) 对类别 Token、姿态热力图 Token和物体交互热力图 Token的注意力权重，筛选出最相关的 Token。
- 通过保留率 $\rho$ 控制保留的 Token 数量。
- 关键点：引入物体交互信息作为引导，确保模型在剪枝时不会丢弃与“手持物体”相关的关键视觉区域。
Token 合并 (Merging)：
- 对上一轮被丢弃的 Token 进行相似度匹配和合并，以进一步减少计算量并保留关键信息。
- 通过合并率 $\lambda$ 控制。

2.3 训练策略

损失函数：结合分类任务的交叉熵损失 ( $L_{CE}$ ) 和热力图预测的均方误差损失 ( $L_{MSE}$ )。
动态平衡：使用 Nash-MTL 算法动态调整分类任务和热力图任务的损失权重，防止任务间梯度冲突。
无外部检测器推理：虽然训练时使用 ViTPose 和 YOLO11x 生成伪标签（Ground Truth），但在推理阶段，模型完全自包含，无需外部检测器，仅需视频输入。

3. 主要贡献 (Key Contributions)

创新的 Token 选择机制：首次将物体交互位置、人体姿态和分心类别信息整合到 Transformer 的 Token 选择过程中，专门针对驾驶员动作识别进行了优化。
多任务端到端模型：提出了一种无需外部检测器的多任务模型，能同时输出分心类别、姿态热力图和物体位置热力图。
显著的效率提升：在保持甚至提高精度的同时，大幅降低了计算成本（GFLOPs）。
实车部署验证：在 NVIDIA Jetson Orin NX 嵌入式平台上进行了广泛的基准测试，证明了其在真实车载环境下的可行性。

4. 实验结果 (Results)

作者在三个主流数据集（Drive&Act, 100-Driver, 3MDAD）上进行了评估：

精度表现 (Accuracy)：
- Drive&Act：PO-GUISE+ 在宏观准确率（Macro Acc.）上达到 70.35%，优于之前的 SOTA 方法 TransDARC (55.30%) 和 DRVMon-VM (62.64%)。
- 100-Driver：准确率达到 93.54%，优于基线 VideoMAEv2-base (91.30%)。
- 3MDAD：准确率达到 93.42%，优于 MIFI (83.9%)。
效率表现 (Efficiency)：
- 计算量降低：相比基线 VideoMAEv2，PO-GUISE+ 在默认设置下减少了约 30% 的 GFLOPs。在极端高效设置下，GFLOPs 减少了 57%。
- 推理速度：在 Jetson Orin NX 上，模型实现了 33 FPS 的推理速度（16 帧/片），且显存占用仅为 3.8GB（基线模型需 5.6GB）。
- 对比轻量级 CNN：在计算预算相当（约 51 GFLOPs）的情况下，PO-GUISE+ (57.42% 精度) 显著优于轻量级 CNN I3D (46.25% 精度)。
消融实验：
- 加入物体交互引导（PO-GUISE+）比仅使用姿态引导（PO-GUISE）在低 Token 保留率下精度提升更明显（例如在 Drive&Act 上提升 3.54%）。
- 证明了物体交互信息对于区分“拿取物体”、“吃东西”等动作至关重要。

5. 意义与结论 (Significance & Conclusion)

实际部署价值：该研究成功解决了高性能 Transformer 模型难以在资源受限的车载边缘设备上运行的问题。通过减少计算量并优化 Token 选择，使得在 Jetson 等嵌入式硬件上实时运行高精度的驾驶员监控系统成为可能。
技术突破：证明了在 Token 选择中显式引入“物体交互”语义信息，比单纯依赖姿态或类别信息更有效，特别是在低计算预算场景下。
未来展望：虽然模型在日间和特定光照下表现优异，但未来工作将致力于整合更长的时间上下文（Time-Action Localization）以及适应夜间或极端光照条件的多模态策略，以构建全天候的驾驶员监控系统。

总结：PO-GUISE+ 通过一种新颖的、多任务引导的 Token 剪枝策略，成功地在驾驶员分心检测任务中实现了精度与效率的最佳平衡，为下一代车载安全系统提供了强有力的技术支撑。