Tracking Cancer Through Text: Longitudinal Extraction From Radiology Reports Using Open-Source Large Language Models

Este artigo apresenta um pipeline totalmente aberto e localmente implantável, baseado no modelo de linguagem \texttt{qwen2.5-72b} e no framework \texttt{llm\_extractinator}, que extrai com alta precisão informações longitudinais sobre carga tumoral e resposta ao tratamento de relatórios de radiologia, demonstrando a viabilidade de modelos de linguagem abertos para tarefas oncológicas que exigem privacidade e reprodutibilidade.

Luc Builtjes, Alessa Hering

Publicado Wed, 11 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os relatórios de radiologia (aqueles textos longos que os médicos escrevem após um exame de tomografia) são como diários de bordo de um navio.

Nesses diários, os médicos registram tudo o que acontece com o "inimigo" (o câncer) ao longo do tempo: se ele está crescendo, encolhendo ou se surgiram novos inimigos. O problema é que esses diários são escritos à mão, de forma desorganizada, com palavras diferentes para a mesma coisa e cheios de detalhes técnicos. Para um computador, ler isso e entender a história completa é como tentar montar um quebra-cabeça onde as peças estão misturadas com areia.

Este artigo apresenta uma solução mágica e segura para ler esses diários automaticamente.

1. O Problema: O Labirinto de Papel

Antes, para ler esses relatórios, os cientistas precisavam de:

  • Regras rígidas: Como um manual de instruções que falhava se o médico escrevesse de um jeito diferente.
  • Modelos secretos: Inteligências Artificiais (IA) muito poderosas, mas que eram "caixas pretas" de empresas privadas. Isso era um problema porque, em hospitais, os dados dos pacientes são confidenciais e não podem sair do prédio (como levar um diário médico para fora do hospital).

2. A Solução: O Detetive de Código Aberto

Os autores criaram um novo sistema, como se fosse um detetive particular que trabalha dentro da própria casa do hospital (localmente), garantindo que nenhum dado saia dali.

  • O Detetive (O Modelo): Eles usaram uma IA de código aberto chamada Qwen2.5-72b. Pense nela como um super-leitor que entende a língua humana perfeitamente e não precisa ser "ensinado" do zero para cada tarefa.
  • O Método (O Roteiro): Eles usaram uma ferramenta chamada llm_extractinator. Imagine isso como um molde de biscoito. Você coloca a massa (o texto bagunçado do relatório) dentro, e o molde corta exatamente o formato que você quer (dados organizados em uma tabela), sem desperdício.
  • A Missão: O sistema lia dois relatórios de um mesmo paciente (um de hoje e um de meses atrás) e tentava responder: "O tumor A de ontem é o mesmo de hoje? Ele cresceu? Surgiu um tumor novo?".

3. Como Funciona na Prática?

O sistema foi treinado para seguir as regras do RECIST (que é como um "manual de regras" internacional para medir tumores).

  • Ligando os Pontos: Em vez de ler um relatório de cada vez, o sistema lia o par (passado e presente) juntos. É como se você lesse o capítulo 1 e o capítulo 2 de um livro ao mesmo tempo para entender a evolução da história, em vez de ler apenas o capítulo 2 e adivinhar o que aconteceu antes.
  • A Linguagem: Eles ensinaram o sistema a ignorar ruídos e focar no essencial: tamanho do tumor, localização exata e se ele é "alvo" (o principal), "não-alvo" (outros) ou "novo".

4. O Resultado: Quase Perfeito

Eles testaram esse sistema em 50 pares de relatórios reais (100 exames no total) e o resultado foi impressionante:

  • Precisão: O sistema acertou mais de 93% dos detalhes importantes (tamanho, nome, localização).
  • Comparação: Quando dois médicos humanos leram os mesmos relatórios, eles concordaram entre si em 93% dos casos. O sistema da IA ficou quase no mesmo nível de precisão dos humanos!
  • Segurança: Como tudo roda no computador do hospital, os dados dos pacientes nunca foram para a nuvem ou para empresas externas.

5. Por que isso é importante?

Imagine que, em vez de ter apenas 50 diários, você pudesse ler milhões de diários de pacientes em segundos.

  • Pesquisa: Os cientistas poderiam descobrir padrões de cura muito mais rápido.
  • Privacidade: Os hospitais podem usar essa tecnologia sem medo de vazar dados sensíveis.
  • Acesso: Como o sistema é "código aberto" (como um receita de bolo que qualquer um pode copiar e melhorar), qualquer hospital no mundo pode usá-lo sem pagar licenças caras.

Resumo da Ópera

Os autores criaram um robô leitor de histórias que trabalha dentro do hospital, segue regras estritas de medicina e consegue transformar textos confusos de radiologia em dados organizados e precisos, quase tão bem quanto um médico especialista, mas de forma automática e segura. É um passo gigante para usar a inteligência artificial a favor da saúde, sem abrir mão da privacidade.