Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um radiologista. Todos os dias, você olha para raios-X de tórax e precisa descrever o que vê. Tradicionalmente, você escreve um relatório em texto livre, como se estivesse contando uma história: "Vejo uma mancha no pulmão esquerdo, parece um pouco difusa...". Isso é útil, mas é difícil para computadores lerem e organizar, e cada médico pode escrever de um jeito diferente.

Para resolver isso, a medicina está tentando usar relatórios estruturados. Em vez de uma história, é como preencher um formulário de múltipla escolha muito detalhado:

Tem anormalidade? [Sim/Não]
Onde? [Lobo superior/Inferior]
Qual o aspecto? [Mancha difusa/Nódulo]

O problema é que esses formulários têm milhares de opções raras. É como tentar adivinhar qual é a cor exata de um pássaro que você nunca viu antes, com base em poucas fotos. Os computadores (Inteligência Artificial) ficam perdidos porque não têm exemplos suficientes para aprender essas opções específicas.

Aqui entra o ProtoSR, o "super-herói" descrito neste artigo. Vamos entender como ele funciona com uma analogia simples:

1. O Problema: O Aluno que Estuda Pouco

Imagine que o computador é um aluno estudando para uma prova de radiologia.

O Material de Estudo Estruturado (Rad-ReStruct): São apenas 3.500 exemplos de formulários preenchidos. É pouco! O aluno sabe o básico, mas trava nas perguntas difíceis e raras (como "mancha difusa no lobo inferior").
O Material de Estudo Livre (MIMIC-CXR): São mais de 200.000 relatórios escritos à mão por médicos reais. É uma biblioteca gigante! Mas está bagunçada, escrita em "idioma médico" variado e difícil de organizar.

O desafio é: como usar a biblioteca gigante (texto livre) para ajudar o aluno a preencher o formulário pequeno (texto estruturado) sem se confundir?

2. A Solução: O "Banco de Memória Visual" (ProtoSR)

Os autores criaram o ProtoSR, que funciona como um assistente de estudo inteligente com três passos mágicos:

Passo 1: O Tradutor Mágico (Mineração de Conhecimento)

Primeiro, eles usaram um "tradutor" superpoderoso (uma Inteligência Artificial chamada LLM) para ler os 200.000 relatórios bagunçados.

O tradutor lê: "O coração está aumentado" e entende que isso significa a opção do formulário: "Cardiomegalia".
Ele lê: "Mancha escura no lado de baixo" e converte para: "Opacidade no lobo inferior".
Ele cria um Banco de Memória Visual: Para cada opção do formulário, ele guarda as melhores imagens que correspondem a essa descrição. É como criar um álbum de figurinhas onde, para cada "defeito", você tem várias fotos reais de como ele se parece.

Passo 2: O Detetive (Recuperação)

Quando o computador principal (o aluno) olha para um novo raio-X e vê uma dúvida (ex: "Isso é uma mancha difusa ou um nódulo?"), ele não chuta.

Ele pergunta ao seu assistente (ProtoSR): "Ei, você tem alguma foto de 'mancha difusa' no seu álbum?"
O assistente procura no banco de memória, encontra as fotos mais parecidas com a imagem atual e diz: "Olha, aqui estão 5 exemplos reais de como uma 'mancha difusa' se parece em outros pacientes."

Passo 3: O Segundo Opinião (Fusão Tardia)

Agora, o computador principal olha para a imagem e para as fotos de exemplo que o assistente trouxe.

Ele pensa: "Hmm, minha primeira ideia era 'nódulo', mas olhando essas fotos de 'mancha difusa' que o assistente trouxe, vejo que realmente se parece mais com isso."
O sistema então ajusta a resposta final, corrigindo o erro com base na evidência visual trazida pelo assistente.

Por que isso é genial?

A maioria dos computadores tenta aprender tudo de uma vez só. O ProtoSR faz algo diferente: ele reconhece que não sabe tudo, então ele consulta um "livro de exemplos" antes de dar a resposta final.

Para perguntas comuns: O computador já sabe a resposta e não precisa consultar muito.
Para perguntas raras e difíceis (a cauda longa): O computador usa o banco de memórias para ter uma "segunda opinião" baseada em dados reais, corrigindo seus erros.

O Resultado

Os testes mostraram que o ProtoSR é o melhor de todos os métodos atuais. Ele não apenas acertou mais no geral, mas teve um salto gigantesco nas perguntas mais difíceis e detalhadas (aquelas que os outros modelos erravam feio).

Em resumo: O ProtoSR pegou a bagunça de milhões de relatórios escritos à mão, organizou-os em um "álbum de figurinhas" visual e ensinou o computador a consultar esse álbum sempre que tiver dúvida. Isso permite que a IA preencha formulários médicos complexos com a precisão de um especialista, usando o conhecimento acumulado de toda a rotina hospitalar.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A geração automatizada de relatórios radiológicos estruturados (SR) enfrenta desafios significativos em comparação com a geração de texto livre:

Escassez de Dados Supervisionados: Conjuntos de dados estruturados (como o Rad-ReStruct) são pequenos e desbalanceados. Eles contêm muitos atributos de "cauda longa" (achados raros e detalhes específicos), resultando em supervisão esparsa para o treinamento de modelos.
Complexidade de Decisão: O preenchimento de templates estruturados exige muitas decisões discretas e de alta granularidade (ex.: localização exata, aparência visual, gravidade) que são difíceis de aprender apenas com dados estruturados limitados.
Subutilização do Conhecimento Não Estruturado: Embora existam grandes conjuntos de dados com pares de imagens e relatórios em texto livre (ex.: MIMIC-CXR, com centenas de milhares de casos), esses dados não são diretamente utilizáveis para preencher templates estruturados devido à variabilidade de estilo, vocabulário e falta de alinhamento com taxonomias rígidas.

2. Metodologia: ProtoSR

Os autores propõem o ProtoSR, um framework de late-fusion (fusão tardia) condicionado a protótipos que integra conhecimento extraído de relatórios em texto livre para melhorar a previsão estruturada. O método divide-se em duas etapas principais:

A. Construção da Base de Conhecimento (Mineração)

O objetivo é transformar um grande corpus de relatórios em texto livre (Dataset B) em uma base de conhecimento multimodal alinhada a um template estruturado (Dataset A).

Expansão de Terminologia: Utiliza-se um LLM (Large Language Model) instruído (Qwen2.5-7B) para gerar sinônimos, abreviações e variações de fraseado para cada rótulo do template estruturado, criando um dicionário robusto.
Extração Alinhada ao Template: O LLM é consultado para verificar a presença de achados nos relatórios em texto livre e extrair os valores dos atributos correspondentes ao template. O processo é hierárquico (extrai atributos filhos apenas se o pai estiver presente) e usa decoding restrito para garantir que as saídas sigam o vocabulário controlado.
Pós-processamento e Montagem: Filtros baseados em regras removem ruídos e inconsistências. Para cada opção de resposta válida, são amostradas até $K$ imagens associadas. Os embeddings dessas imagens são agregados (usando max pooling elementar) para formar um protótipo visual único que representa essa opção de resposta.

B. Arquitetura de Fusão Tardia Condicionada a Protótipos

O modelo de relatórios estruturados base (backbone) é enriquecido por um ramo de conhecimento:

Modelo Base: Segue a arquitetura do Rad-ReStruct, processando a imagem e o contexto da pergunta (histórico de perguntas e respostas) para gerar logits base ( $z_{base}$ ).
Ramo de Conhecimento:
- Dada a representação fusionada da imagem e pergunta, o sistema calcula a similaridade cosseno com os protótipos na base de conhecimento.
- Seleciona os protótipos relevantes e agrega seus embeddings visuais ( $v$ ) e vetores de resposta ( $u$ ) ponderados pela similaridade.
- Um MLP transforma essa combinação em um viés de suporte ( $b_{sup}$ ), que atua como uma "segunda opinião" baseada em evidências visuais recuperadas.
Fusão Final: Os logits finais são obtidos somando-se os logits base ao viés de suporte, escalado por um vetor de aprendizado ( $s$ ):
$z_{final} = z_{base} + s \odot b_{sup}$
Isso permite correções direcionadas em decisões específicas sem alterar o comportamento global do modelo base.

3. Principais Contribuições

Pipeline de Mineração Automática: Um processo inovador que utiliza LLMs instruídos para converter grandes volumes de relatórios em texto livre em uma base de conhecimento multimodal alinhada a templates estruturados, lidando com a variabilidade linguística clínica.
Mecanismo de Fusão Tardia com Protótipos: Uma arquitetura que injeta evidências recuperadas como um resíduo nos logits, permitindo correções seletivas em atributos de alta granularidade (cauda longa) enquanto preserva a estabilidade do modelo base.
Desempenho em Atributos Detalhados: Demonstração de que o conhecimento derivado de texto livre pode ser sistematicamente convertido em sinais de aprendizado para melhorar a compreensão de imagem em cenários de supervisão esparsa.

4. Resultados

Os experimentos foram conduzidos no benchmark Rad-ReStruct (3.597 estudos de raios-X de tórax) utilizando o MIMIC-CXR para mineração de conhecimento.

Desempenho Geral: O ProtoSR alcançou o estado da arte (SOTA) no benchmark, obtendo o melhor F1 Geral (34.4) e superando modelos generalistas (como MedGemma e CheXagent) e métodos anteriores de relatórios estruturados.
Ganhos em Alta Granularidade: A maior melhoria ocorreu nas perguntas de nível 3 (atributos detalhados como localização e aparência), onde o F1 subiu de 4.1 (base) para 7.4, representando um ganho relativo de +72.1%. Isso confirma a eficácia do método em lidar com dados esparsos e raros.
Validação de Ablação:
- A fusão tardia superou a fusão precoce (que injeta embeddings diretamente na entrada).
- A substituição dos protótipos por ruído gaussiano fez o desempenho cair ao nível da base, provando que as melhorias vêm do conteúdo semântico dos protótipos recuperados e não apenas da capacidade extra do modelo.
Qualidade da Mineração: O pipeline de extração alcançou cobertura de 100% nos níveis L1, 96% em L2 e 82% em L3, garantindo suporte prototípico mesmo para atributos raros.

5. Significância

O trabalho de Pellegrini et al. é significativo porque:

Ponte entre Texto Livre e Estrutura: Resolve o problema de como aproveitar o vasto conhecimento não estruturado disponível na prática clínica diária para melhorar tarefas estruturadas rigorosas.
Solução para Cauda Longa: Oferece uma abordagem prática para o problema crônico de falta de dados em atributos médicos raros, utilizando a recuperação de exemplos similares (protótipos) como mecanismo de regularização e correção.
Viabilidade Clínica: Ao melhorar a consistência e a completude dos relatórios estruturados, o método facilita o monitoramento de qualidade e análises secundárias, que são difíceis de realizar com relatórios em texto livre não padronizados.

Em resumo, o ProtoSR demonstra que a integração inteligente de conhecimento extraído de relatórios rotineiros pode superar as limitações de dados supervisionados, elevando o estado da arte na geração de relatórios radiológicos estruturados de alta precisão.