AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de inteligência artificial muito inteligente, capaz de ler e escrever como um médico. O problema é que, até agora, esse assistente era como um estudante de medicina que decorou o nome de todas as partes do corpo, mas quando olhava para um raio-X, ele se confundia: ele sabia que "pulmão" existia, mas não conseguia dizer com certeza se era o pulmão esquerdo ou o direito, ou se uma mancha estava no alto ou no baixo.

Se você virasse a imagem de cabeça para baixo, esse assistente ficaria completamente perdido, achando que o lado direito era o esquerdo. Isso é perigoso na medicina!

É aqui que entra o AnatomiX.

O Que é o AnatomiX?

O AnatomiX é um novo modelo de inteligência artificial criado para ler raios-X do tórax. A grande sacada dele é que ele foi desenhado para entender a anatomia humana de verdade, não apenas para adivinhar padrões.

Para explicar como ele funciona, vamos usar uma analogia de uma obra de construção:

1. O Arquiteto (O Módulo de Percepção Anatômica)

Antes de começar a construir (ou diagnosticar), o AnatomiX não olha para a imagem inteira de uma vez só. Ele age como um arquiteto experiente que entra na obra e faz o seguinte:

Identifica as estruturas: Ele aponta para o coração, para o pulmão esquerdo, para a clavícula, etc.
Desenha o mapa: Ele coloca "etiquetas" e "caixas" ao redor de cada órgão, como se estivesse marcando no chão onde fica cada peça.
Verifica o manual: Ele consulta um dicionário interno para saber como cada parte deve se parecer e como se chama em linguagem médica.

Esse passo é crucial. Enquanto outros modelos tentam adivinhar a resposta final de uma vez, o AnatomiX primeiro localiza e entende cada peça do quebra-cabeça.

2. O Engenheiro Chefe (O Modelo de Linguagem)

Depois que o "arquiteto" mapeou tudo, ele passa essas informações detalhadas para o "engenheiro chefe" (o cérebro de linguagem do modelo).

Em vez de dizer apenas "vejo uma mancha", o engenheiro recebe a informação: "A mancha está dentro da caixa do pulmão esquerdo inferior".
Com essa informação precisa, ele gera o relatório, responde a perguntas ou descreve a imagem com uma precisão cirúrgica.

Por que isso é um avanço? (A Analogia do Espelho)

O artigo mostra um teste muito interessante: eles pegaram uma imagem de raio-X e a viraram de lado (como se estivesse no espelho).

Os modelos antigos (como o RadVLM): Ficaram confusos. Eles viram o "pulmão esquerdo" na imagem espelhada e disseram que era o "pulmão direito", porque estavam apenas olhando para a posição na tela, não entendendo a anatomia real.
O AnatomiX: Não se confundiu. Ele reconheceu: "Ah, essa estrutura é o pulmão esquerdo, mesmo que a imagem esteja virada". Ele entende a identidade do órgão, não apenas a sua posição na foto.

O Que ele faz na prática?

O AnatomiX é um "canivete suíço" para radiologistas. Ele consegue fazer quatro coisas principais muito bem:

Localizar doenças: "Onde está a pneumonia?" -> Ele desenha um quadrado exatamente no lugar certo.
Escrever relatórios: Gera o texto do laudo médico automaticamente.
Responder perguntas: "Tem algo errado no coração?" -> Ele analisa e responde.
Entender o contexto: Se você perguntar sobre uma parte específica do raio-X, ele sabe exatamente a que parte você está se referindo.

A Conclusão Simples

Pense no AnatomiX como um médico residente que nunca se cansa e nunca confunde o lado esquerdo com o direito.

Ele foi treinado para não apenas "ver" a imagem, mas para mapear o corpo humano antes de tentar diagnosticar. Isso o torna muito mais confiável, especialmente em situações onde a orientação da imagem pode ser diferente ou onde a precisão anatômica é vital para salvar vidas.

O resultado? O modelo superou todos os concorrentes atuais em testes de precisão anatômica, provando que, na medicina, entender onde as coisas estão é tão importante quanto saber o que elas são.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Modelos de Linguagem Multimodal (MLLMs) têm avançado na interpretação de raios-X de tórax (CXR), mas enfrentam desafios críticos em raciocínio espacial e compreensão anatômica.

Falha na Correspondência Anatômica: Técnicas de "grounding" (ancoragem) existentes, que alinham texto a objetos na imagem, muitas vezes falham em estabelecer uma correspondência anatômica verdadeira. Elas tendem a depender de correlações espaciais superficiais (como a posição de marcadores radiológicos) em vez de reconhecer a estrutura anatômica real.
Fragilidade a Inversões: Como demonstrado no artigo, modelos de última geração (SOTA) frequentemente falham quando as imagens são invertidas horizontalmente (esquerda ↔ direita), confundindo lados do corpo (ex: pulmão esquerdo vs. direito). Isso indica que eles não compreendem a anatomia, mas sim memorizaram padrões de orientação.
Processo de "One-Step": A maioria dos modelos atuais tenta detectar objetos e realizar a tarefa final (diagnóstico, relatório) em uma única etapa implícita, diferentemente do fluxo de trabalho dos radiologistas, que identificam, localizam e avaliam estruturas iterativamente antes de concluir.

2. Metodologia: AnatomiX

O AnatomiX é um modelo MLLM projetado especificamente para interpretação de raios-X de tórax, utilizando uma abordagem de dois estágios inspirada no fluxo de trabalho radiológico. A arquitetura consiste em dois componentes principais:

A. Módulo de Percepção Anatômica (APM)

O APM é responsável por extrair representações globais da imagem e características granulares de estruturas anatômicas específicas antes de passar os dados para o LLM.

Codificador e Decodificador: Utiliza um codificador de imagem ( $E$ ) e um decodificador inspirado no DETR para prever caixas delimitadoras ( $\hat{y}_{box}$ ) para $N$ objetos anatômicos pré-definidos (ex: 36 estruturas torácicas).
Extração de Características: Um módulo de extração de características ( $M$ ) utiliza atenção cruzada para gerar tokens de objetos anatômicos ( $\hat{O}_A$ ) que codificam as características visuais finas de cada região específica.
Alinhamento Contrastivo: Durante o treinamento, o modelo alinha os tokens visuais dos objetos com descrições textuais radiológicas usando uma Matriz de Auto-Similaridade e uma perda de divergência KL (Kullback-Leibler). Isso permite lidar com a co-ocorrência natural de achados em diferentes regiões (diferente da perda CLIP padrão que assume um único par positivo).
Recuperação na Inferência: Na fase de inferência, o codificador de sentenças é substituído por um Banco de Dados Vetorial (VDB) compacto. O modelo recupera as descrições textuais mais semanticamente similares para cada objeto anatômico detectado, fornecendo contexto clínico ao LLM.

B. Grande Modelo de Linguagem (LLM)

Base: O modelo utiliza a arquitetura MedGemma-4b-it.
Tokens Especiais: O vocabulário é expandido com tokens especiais para objetos anatômicos (<obj_i>) e tokens de ancoragem espacial (<box>, </box>, <ref>, </ref>).
Prompt Multimodal: O LLM recebe uma entrada estruturada contendo:
1. Embeddings da imagem global ( $I_p$ ).
2. Tokens de objetos anatômicos ( $\hat{O}_A$ ) e suas localizações ( $\hat{y}_{box}$ ).
3. Descrições textuais recuperadas do VDB ( $\hat{S}_t$ ).
4. O prompt do usuário.
Treinamento: Utiliza LoRA (Low-Rank Adaptation) para ajuste fino, permitindo que o modelo raciocine diretamente sobre os objetos anatômicos fornecidos, em vez de inferi-los implicitamente da imagem global.

3. Principais Contribuições

Arquitetura Consciente da Anatomia: Introdução do AnatomiX, que separa explicitamente a detecção/análise anatômica da geração de resposta, simulando o raciocínio clínico.
Módulo de Percepção (APM): Desenvolvimento de um módulo que extrai, localiza e alinha semanticamente 36 estruturas anatômicas torácicas, superando a limitação de modelos que tratam a imagem como um bloco único.
Robustez Espacial: O modelo demonstra uma compreensão anatômica superior, mantendo a precisão mesmo em imagens invertidas ou sem marcadores radiológicos, onde modelos concorrentes falham completamente.
Desempenho Multi-tarefa: O modelo é treinado e avaliado em 9 tarefas distintas, abrangendo geração de relatórios, VQA (Visual Question Answering), detecção de anomalias e múltiplos tipos de tarefas de "grounding".

4. Resultados Experimentais

Os experimentos foram realizados em diversos benchmarks (MIMIC-CXR, VinDr-CXR, Chest-ImaGenome, etc.) comparando o AnatomiX com modelos SOTA como RadVLM, CheXagent e MAIRA-2.

Tarefas de Grounding (Ancoragem):
- O AnatomiX superou todos os modelos concorrentes em Grounding de Frases e Grounding Anatômico.
- Houve uma melhoria de >25% nas métricas de IoU (Intersection over Union) e mAP (Mean Average Precision) para tarefas de grounding anatômico.
- Teste de Inversão: Em imagens horizontalmente invertidas, o RadVLM (o melhor baseline) teve uma queda drástica (IoU médio de ~0.10), enquanto o AnatomiX manteve alta precisão (IoU médio de ~0.71), provando sua robustez anatômica.
Geração de Relatórios e Diagnóstico:
- O modelo obteve o melhor desempenho em métricas de NLG (ROUGE, BERTScore) e métricas clínicas (RadGraph-F1, CheXbert-14-F1) para Diagnóstico Grounded e Legendagem Grounded.
- Na geração de relatórios completos, superou modelos concorrentes, demonstrando eficiência computacional (com menos parâmetros que alguns rivais) e precisão clínica.
VQA e Classificação:
- Alcançou desempenho SOTA ou comparável em tarefas de VQA (aberto e fechado) e classificação de anomalias, validando a eficácia da arquitetura de dois estágios.

5. Significado e Impacto

O trabalho do AnatomiX marca um passo fundamental no desenvolvimento de MLLMs para medicina.

Superação do "Shortcut Learning": O estudo demonstra que o ajuste fino simples de modelos gerais em dados médicos não é suficiente para garantir compreensão espacial real. A arquitetura precisa ser consciente da anatomia para evitar dependência de artefatos visuais (como marcadores de "L" ou "R").
Confiabilidade Clínica: Ao garantir que o modelo entende a localização correta das estruturas (esquerda vs. direita) independentemente da orientação da imagem, o AnatomiX aumenta a confiabilidade e a segurança para aplicações clínicas reais.
Direção Futura: O sucesso da abordagem de dois estágios sugere que a modelagem explícita de entidades anatômicas é essencial para o raciocínio médico avançado, abrindo caminho para extensões a outras modalidades (como MRI) e interações multi-turno.

Em resumo, o AnatomiX resolve a lacuna crítica entre a ancoragem visual e a compreensão médica, estabelecendo um novo padrão de referência para a interpretação de raios-X de tórax por IA.