DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artigo apresenta o DHECA-SuperGaze, um método de aprendizado profundo que combina super-resolução e um módulo de atenção cruzada dual cabeça-olho para melhorar a estimativa de olhar em cenários não controlados, corrigindo erros de anotação no conjunto de dados Gaze360 e alcançando desempenho superior ao estado da arte em várias métricas de erro angular.

Franko Šikić, Donik Vršnak, Sven Lončarić

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando adivinhar para onde uma pessoa está olhando em uma foto tirada em um dia de muito vento, com pouca luz e a pessoa pode estar de lado, de costas ou usando óculos escuros. É como tentar entender o que alguém está pensando apenas olhando para o topo da cabeça dele em uma foto borrada. É difícil, certo?

Este artigo apresenta uma nova tecnologia chamada DHECA-SuperGaze que funciona como um "super-olho" para computadores, ajudando-os a entender exatamente para onde as pessoas estão olhando, mesmo em situações caóticas.

Aqui está como eles fizeram isso, usando analogias simples:

1. O Problema: Fotos Borradas e Confusas

Antes, os computadores tentavam adivinhar o olhar apenas olhando para a foto inteira da cabeça. Mas, na vida real, as fotos são muitas vezes de baixa qualidade (como uma foto tirada com uma câmera velha) e o computador não consegue ver os detalhes finos dos olhos. Além disso, a cabeça pode estar virada para um lado, mas os olhos para o outro (como quando você olha para o lado sem virar o pescoço).

2. A Solução Mágica: O "Super-Resolução" (SR)

A primeira parte do sistema é como um restaurador de fotos antigo.

  • A Analogia: Imagine que você tem uma foto pequena e pixelada de um rosto. Em vez de tentar adivinhar os detalhes, o sistema usa uma "mágica" (chamada Super-Resolução) para aumentar a imagem, preenchendo os pixels faltantes e deixando a foto nítida, como se tivesse sido tirada com uma câmera profissional de alta definição.
  • O Truque: Eles aplicaram essa "mágica" especificamente na foto da cabeça inteira, para que o computador pudesse ver os detalhes com clareza antes de tentar adivinhar o olhar.

3. O Cérebro Duplo: "Cabeça" e "Olhos" conversando (DHECA)

Aqui está a parte mais inteligente. O sistema não olha apenas para a cabeça ou apenas para os olhos; ele usa dois "cérebros" que conversam entre si.

  • A Analogia: Imagine que você tem dois detetives trabalhando no mesmo caso.
    • O Detetive Cabeça olha para a orientação do rosto (para onde o nariz está apontando).
    • O Detetive Olhos olha para os detalhes dos olhos (para onde a pupila está focada).
    • O Problema Antigo: Antes, esses detetives trabalhavam sozinhos ou apenas um dava ordens ao outro.
    • A Inovação (DHECA): Neste novo sistema, os dois detetives têm um "telefone direto" (atenção cruzada). Eles trocam informações o tempo todo. Se o Detetive Cabeça diz "o rosto está virado para a esquerda", o Detetive Olhos ajusta sua análise. Se o Detetive Olhos diz "a pupila está olhando para a direita", o Detetive Cabeça entende que a pessoa está olhando para o lado, mesmo com a cabeça virada. Essa conversa constante faz a previsão ser muito mais precisa.

4. A Limpeza de Dados: Arrumando a Bagunça

Os pesquisadores descobriram que um dos maiores bancos de dados de fotos do mundo (chamado Gaze360) estava com "rótulos errados".

  • A Analogia: Era como se, em um álbum de fotos de uma festa, alguém tivesse escrito "João está olhando para a pizza" em uma foto onde, na verdade, a foto estava focada no irmão de João que estava ao fundo, e não no João principal.
  • A Correção: Eles passaram horas revisando as fotos, encontrando esses erros e corrigindo os rótulos. Isso é como limpar uma biblioteca bagunçada; quando os livros (dados) estão organizados no lugar certo, qualquer pessoa (ou computador) consegue encontrar a informação muito mais rápido e com mais precisão.

5. O Resultado: Precisão de Mestre

Com a foto nítida (Super-Resolução), a conversa entre os dois detetives (DHECA) e os dados corrigidos, o sistema se tornou o melhor do mundo em testes.

  • Ele consegue prever para onde alguém está olhando com muito menos erro do que os sistemas anteriores.
  • Funciona bem tanto em fotos paradas quanto em vídeos (onde a pessoa se move).
  • Funciona mesmo quando a pessoa está de costas ou em ambientes escuros.

Em resumo:
O DHECA-SuperGaze é como dar ao computador óculos de alta definição para ver a foto, um tradutor para fazer a cabeça e os olhos conversarem perfeitamente, e uma equipe de limpeza para garantir que os dados de treinamento não estejam bagunçados. O resultado é um sistema que entende o olhar humano quase tão bem quanto outro humano, mas sem se cansar e sem se confundir com a bagunça do mundo real.