FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um computador a ler um raio-X de tórax e diagnosticar doenças. O computador é inteligente, mas às vezes ele olha para o lugar errado, como se estivesse distraído.

Agora, imagine que você tem um médico especialista ao seu lado. Esse médico olha para o raio-X de uma maneira muito específica: ele não olha para tudo de uma vez; ele move os olhos de um ponto para outro, focando em áreas importantes (como o coração ou os pulmões) por alguns segundos antes de ir para o próximo. Esse caminho que os olhos do médico traçam é chamado de trajetória de olhar (ou gaze).

O problema é que os computadores tradicionais (chamados de CNNs) são como fotógrafos estáticos. Eles gostam de ver uma "foto" do que o médico olhou (um mapa de calor), mas perdem a história de como o médico olhou. Eles perdem a sequência: "primeiro olhou aqui, depois ali, depois acolá".

Aqui entra o FixationFormer, o "herói" deste artigo.

A Grande Ideia: Transformar Olhares em Palavras

Os autores do artigo, Daniel e Benjamin, tiveram uma ideia genial: e se tratássemos o olhar do médico não como uma foto, mas como uma história?

Eles criaram um sistema que transforma cada ponto onde o médico parou para olhar (chamado de fixação) em um "token" (uma espécie de palavra ou bloco de informação). Assim, a sequência de olhares do médico vira uma frase, e o computador pode ler essa frase junto com a imagem do raio-X.

Como Funciona a Mágica? (A Analogia da Conversa)

Pense no sistema FixationFormer como uma conversa entre dois especialistas em uma sala de reunião:

O Especialista da Imagem (ViT): Ele segura o raio-X e diz: "Vejo uma mancha escura aqui no pulmão".
O Especialista do Olhar (Gaze): Ele segura o registro de onde o médico humano olhou e diz: "Ah, o médico humano focou muito tempo exatamente nessa mancha escura e depois olhou para o coração".

O FixationFormer usa uma tecnologia chamada Transformer (a mesma usada em modelos de IA generativa) para fazer essa conversa acontecer. Existem duas formas de eles conversarem:

Atenção Cruzada (Cross-Attention): É como se o Especialista da Imagem escutasse o Especialista do Olhar e dissesse: "Ok, você disse para olhar ali, então vou focar minha atenção naquela mancha". A imagem é atualizada com a sabedoria do olhar.
Atenção Bidirecional (Two-Way): É uma conversa mais intensa. Eles não só escutam um ao outro, mas também se influenciam mutuamente, trocando ideias em tempo real.

O Que Eles Descobriram?

Os pesquisadores testaram essa ideia em três bancos de dados diferentes de raios-X. Os resultados foram impressionantes:

Melhor Diagnóstico: O sistema que "ouvia" o olhar do especialista conseguiu diagnosticar doenças com mais precisão do que os sistemas que só olhavam para a imagem.
O Segredo da Sequência: Descobriram que a ordem em que o médico olha as coisas importa. O computador aprendeu que, se o médico olhou para o coração antes dos pulmões, isso pode ser um sinal importante.
Estabilidade: Em alguns casos, a conversa simples (Atenção Cruzada) funcionou melhor do que a conversa intensa (Bidirecional), provando que às vezes é melhor ouvir com atenção do que tentar falar ao mesmo tempo.

Por Que Isso é Importante?

Imagine que você está aprendendo a dirigir. Você pode olhar para um mapa estático (o método antigo), mas é muito mais útil ver um vídeo de um instrutor experiente mostrando como ele olha para a estrada, quando freia e quando vira o volante.

O FixationFormer faz exatamente isso para a medicina. Ele ensina a IA a não apenas "ver" a imagem, mas a "pensar" como um radiologista, seguindo o caminho dos olhos do especialista. Isso ajuda a criar sistemas de diagnóstico mais confiáveis, que podem ajudar médicos reais a não perderem detalhes importantes em exames complexos.

Em resumo: O FixationFormer é como dar um "mapa de tesouro" baseado nos olhos de um mestre para um computador, permitindo que ele aprenda a olhar para os raios-X da maneira certa, ponto a ponto, como um especialista faria.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A análise de imagens médicas, particularmente radiografias de tórax, enfrenta desafios significativos devido à sobreposição de órgãos e estruturas, o que dificulta a identificação precisa de regiões de interesse (ROIs). Embora as Redes Neurais Convolucionais (CNNs) tenham dominado historicamente este domínio, a integração de dados de rastreamento ocular (gaze) de especialistas (radiologistas) tem sido uma estratégia promissora para melhorar o desempenho.

No entanto, a integração direta de trajetórias de olhar em sistemas baseados em CNN é desafiadora porque:

Os dados de olhar são sequenciais, densos temporalmente, mas esparsos espacialmente.
São ruidosos e variáveis entre diferentes especialistas.
A maioria dos métodos existentes converte essas trajetórias em mapas de calor (heatmaps) 2D estáticos. Essa abordagem reduz a complexidade, mas perde a dinâmica temporal dos padrões de olhar, que pode conter informações contextuais cruciais. Além disso, a geração de heatmaps pode ser computacionalmente custosa.

2. Metodologia: FixationFormer

O artigo propõe o FixationFormer, uma arquitetura baseada em Transformers que integra diretamente as trajetórias de olhar como sequências de tokens, preservando sua estrutura temporal e espacial. A metodologia divide-se em três componentes principais:

A. Codificação de Imagem (Image Encoder)

Utiliza um Vision Transformer (ViT) padrão como espinha dorsal.
Para compensar o desempenho inferior de ViTs em conjuntos de dados médicos menores, o codificador de imagem é pré-treinado utilizando o framework MGCA (Multi-Granularity Cross-modal Alignment) no grande conjunto de dados MIMIC-CXR.
O modelo utiliza o token [CLS] do codificador de imagem para a previsão final.

B. Representação de Olhar (Gaze Representation)

Em vez de heatmaps, o modelo transforma as trajetórias brutas de olhar em uma sequência de tokens:

Filtragem: As trajetórias brutas (com saccades) são convertidas em sequências de fixações (pontos onde o olho permanece focado por um período).
Tokenização: Cada fixação é descrita por três atributos:
- Localização Espacial (C): Coordenadas (x, y).
- Duração (D): Tempo em que o olhar permaneceu fixo.
- Tempo de Início (S): Momento de início da fixação na trajetória total.
Codificação:
- Localização e Duração são projetados em um espaço de dimensão $D$ usando camadas lineares aprendíveis.
- O Tempo de Início é codificado usando positional encodings (como no Transformer original) para capturar a ordem temporal.
- O token final de olhar ( $G$ ) é a soma dessas três representações.

C. Módulo de Integração (Gaze Integration Module)

O modelo funde as características da imagem e do olhar através de um empilhamento de camadas de Transformer estilo decoder. São investigadas duas mecanismos de atenção:

Cross-Attention (Imagem para Olhar): Apenas as características da imagem são atualizadas, atendendo aos tokens de olhar. Isso enriquece a representação visual com os padrões de visualização do especialista. Uma codificação posicional espacial adicional é adicionada para manter a correlação espacial.
Two-Way Attention (Atenção Bidirecional): Estende o método anterior permitindo que os tokens de olhar também sejam atualizados ao atender às características da imagem (fusão bidirecional profunda), inspirado no decodificador de máscaras do modelo SAM.

3. Contribuições Principais

Integração Direta de Sequências: Propõe a primeira abordagem que trata trajetórias de olhar como sequências de tokens diretamente integradas a uma arquitetura Transformer, evitando a perda de informação temporal inerente aos heatmaps.
Arquitetura Híbrida: Desenvolve um mecanismo de fusão que permite interação explícita entre tokens de imagem e tokens de olhar via atenção cruzada.
Validação em Múltiplos Cenários: Demonstra a eficácia do método em três conjuntos de dados públicos de radiografias de tórax, mostrando que a representação sequencial do olhar é superior ou competitiva em relação aos métodos baseados em CNN e heatmaps.

4. Resultados Experimentais

O modelo foi avaliado em três conjuntos de dados: CXR-Gaze, SIIM-ACR e Reflacx.

Desempenho Geral: O FixationFormer alcançou desempenho State-of-the-Art (SOTA) em dois dos três conjuntos de dados e igualou os melhores resultados no terceiro.
Comparação de Variantes:
- A variante Cross-Attention (unidirecional) geralmente produziu resultados mais consistentes e estáveis, superando a variante Two-Way em precisão e variância, especialmente no conjunto de dados Reflacx (mais desafiador e desbalanceado).
- A variante Two-Way mostrou-se mais volátil durante o treinamento.
Ablação e Análise:
- Apenas Olhar: Um modelo treinado apenas com tokens de olhar (sem imagem) obteve desempenho acima do acaso, provando que a tokenização captura semântica significativa dos padrões de olhar.
- Backbone Mais Fraco: Ao substituir o backbone pré-treinado no MIMIC-CXR por um ViT padrão treinado no ImageNet, o ganho de desempenho ao adicionar o módulo de olhar foi substancial. Isso indica que o FixationFormer é particularmente eficaz quando os dados de imagem são menos informativos ou o modelo de base é mais fraco.
Visualização: Mapas de atenção (GradCAM) mostraram que o modelo com olhar foca de forma mais consistente em regiões anatomicamente relevantes em comparação com o modelo apenas de imagem.

5. Significado e Conclusão

O trabalho demonstra que a representação de trajetórias de olhar como sequências de tokens em Transformers é uma abordagem superior para a análise de imagens médicas em comparação com a redução para heatmaps estáticos.

Valor Clínico: O método permite uma integração mais fina e direta do raciocínio diagnóstico de especialistas nos modelos de IA, potencialmente melhorando a interpretabilidade e a precisão.
Eficiência: A abordagem é robusta mesmo em cenários com backbones mais simples, sugerindo que o olhar do especialista pode compensar a falta de dados de treinamento massivos ou arquiteturas complexas.
Futuro: O artigo sugere que, com o aumento de conjuntos de dados de rastreamento ocular médico, essa abordagem pode ser estendida para outras modalidades de imagem e tarefas além da classificação.

Em resumo, o FixationFormer estabelece um novo paradigma para o uso de dados de rastreamento ocular na visão computacional médica, alinhando a natureza sequencial do olhar humano com a arquitetura de atenção dos Transformers.