PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

O artigo apresenta o PO-GUISE+, um modelo de transformador multi-tarefa que utiliza informações de pose e objetos para selecionar tokens de forma eficiente, permitindo o reconhecimento de ações de direção distraída com alta precisão e baixo custo computacional em plataformas embarcadas.

Ricardo Pizarro, Roberto Valle, Rafael Barea, Jose M. Buenaposada, Luis Baumela, Luis Miguel Bergasa

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um guarda-costas muito inteligente, mas um pouco "chato" e lento. Esse guarda-costas é o seu carro, e a tarefa dele é vigiar o motorista para garantir que ele não está fazendo nada perigoso, como mexer no celular, comer um sanduíche ou ajustar o rádio enquanto dirige.

O problema é que, para fazer esse trabalho com perfeição, o guarda-costas precisa assistir a todos os quadros do vídeo da câmera, o tempo todo. É como se ele tivesse que ler cada palavra de um livro gigante, página por página, para entender a história. Isso exige muita energia e um computador superpoderoso, o que é caro e difícil de colocar dentro de um carro comum.

Aqui entra o PO-GUISE+, o novo "super-guarda-costas" criado pelos autores deste artigo.

A Grande Ideia: O Filtro de Atenção

O PO-GUISE+ não tenta ler tudo. Em vez disso, ele aprendeu a ser um detetive esperto.

  1. O Problema do "Filtro" Antigo:
    Antes, existiam métodos que tentavam ignorar partes do vídeo para economizar energia. Eles olhavam apenas para o corpo do motorista (onde estão as mãos e a cabeça). Era como se o guarda-costas olhasse apenas para as mãos do motorista, mas ignorasse o que elas estavam segurando. Se o motorista segurasse um celular, o sistema antigo podia não perceber que era um celular, achando que era apenas uma mão se movendo.

  2. A Solução PO-GUISE+:
    O PO-GUISE+ é diferente. Ele usa uma técnica chamada "seleção de tokens" (que é uma forma chique de dizer "escolher quais pedaços da imagem são importantes").

    • A Analogia do Detetive: Imagine que você está em uma sala cheia de pessoas conversando (o vídeo). O sistema antigo olhava apenas para quem estava falando. O PO-GUISE+, porém, olha para quem está falando E o que a pessoa está segurando (um celular, uma garrafa, um livro).
    • Ele cria um "mapa de calor" (uma espécie de radar visual) que mostra onde está o corpo do motorista e onde está o objeto com o qual ele está interagindo.

Como ele funciona na prática?

O sistema funciona em três passos principais, como se fosse uma equipe de segurança:

  1. O Olho de Águia (A Câmera): Ele pega um pequeno trecho de vídeo (como um clipe de 3 segundos).
  2. O Filtro Inteligente (A Seleção de Tokens): Em vez de processar toda a imagem, o sistema decide: "Ok, a parte do vidro do carro e o banco vazio não são importantes agora. Vamos descartar esses pedaços para economizar energia." Mas, ele mantém os pedaços onde está a mão do motorista e o objeto que ele está segurando.
  3. A Decisão (O Veredito): Com apenas os pedaços importantes, o sistema diz: "O motorista está segurando um celular e olhando para ele. Isso é distração!" ou "Ele está apenas segurando o volante. Tudo certo."

Por que isso é incrível?

  • Economia de Energia: O sistema consegue fazer o mesmo trabalho (ou até melhor) usando 30% a 57% menos energia do que os sistemas anteriores. É como trocar um motor de caminhão por um motor híbrido super eficiente que anda na mesma velocidade.
  • Precisão: Como ele olha para o objeto (o celular, a comida), ele erra menos. Ele não confunde "comer um lanche" com "segurar o volante".
  • Funciona em Carros Reais: Os autores testaram isso em computadores pequenos e baratos (chamados Jetson), que são do tamanho de um livro e cabem no painel do carro. O sistema consegue processar o vídeo em tempo real, sem travar, como se fosse um vídeo do YouTube rodando liso no seu celular.

O Resultado Final

O PO-GUISE+ é como dar ao carro um cérebro que sabe exatamente onde olhar. Ele não perde tempo com o que não importa (o teto do carro, o banco vazio) e foca 100% no que pode causar um acidente: a interação entre o motorista e um objeto.

Isso significa que, no futuro, nossos carros poderão ter sistemas de segurança que vigiam o motorista 24 horas por dia, gastando pouca bateria e evitando acidentes, sem precisar de computadores gigantes e caros. É um passo gigante para tornar as estradas mais seguras para todos nós.