Evaluating Large Language Models for Translating… — Explicação em linguagem simples

Autores originais: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Publicado 2026-05-22

📖 4 min de leitura☕ Leitura rápida

Ver no medRxiv ↗PDF ↗

CC BY 4.0

Autores originais: Yan, C., Xin, Y., Su, W.-C., Gangireddy, S., Durbhakula, S., Bruehl, S. P., Dickson, A. L., Li, L., Feng, Q., Malin, B. A., Derr, T., Wei, W.-Q.

Artigo original sob licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Imagine que você é um chef de cozinha mestre tentando recriar um prato famoso, mas não tem a receita. Em vez disso, você tem uma pilha bagunçada de anotações, algumas rabiscadas em guardanapos, outras desenhadas como cartoons e algumas escritas em uma mistura confusa de idiomas. Seu objetivo é transformar essas anotações desorganizadas em um manual de instruções preciso, passo a passo, que uma cozinha robótica possa seguir para cozinhar o prato perfeitamente.

Este artigo trata de testar dois chefs de IA superinteligentes (chamados Modelos de Linguagem de Grande Porte, ou LLMs) para ver se eles podem realizar esse trabalho para a pesquisa médica.

O Problema: A Receita "Perdida na Tradução"

Na pesquisa médica, os cientistas definem grupos específicos de pacientes (como "pessoas com Diabetes Tipo 2") usando regras complexas. Essas regras geralmente são escritas em documentos legíveis por humanos que parecem uma mistura de histórias, fluxogramas e tabelas.

Para usar essas regras no sistema computacional de um hospital, um especialista humano precisa traduzi-las manualmente para uma linguagem de computador (SQL). Isso é como traduzir um poema para código de computador. Leva muito tempo, é extremamente tedioso e, se dois especialistas diferentes fizerem isso, podem acabar com resultados ligeiramente diferentes. Os pesquisadores queriam ver se a IA poderia realizar essa tradução automaticamente.

O Experimento: Testando os Chefs de IA

Os pesquisadores selecionaram dois dos modelos de IA mais inteligentes disponíveis (o GPT o3 da OpenAI e o Claude Opus 4.1 da Anthropic) e forneceram a eles cinco "receitas" diferentes (definições médicas para condições como lesão renal, ataques cardíacos e diabetes) de uma biblioteca pública chamada PheKB.

Eles testaram a IA de três maneiras diferentes, como dar ao chef diferentes tipos de instruções:

O Pacote Completo: A IA recebeu o documento inteiro (texto, gráficos e diagramas).
Apenas a História: A IA recebeu apenas o texto escrito e as tabelas, mas nenhuma imagem.
Apenas as Imagens: A IA recebeu apenas os diagramas e fluxogramas, sem nenhuma palavra.

Os Resultados: O Que Funcionou e o Que Não Funcionou

1. A Armadilha "Apenas Imagens"
Quando a IA tentou ler apenas os diagramas (os fluxogramas), falhou miseravelmente. Era como pedir a um chef que cozinhasse uma refeição complexa apenas olhando para um desenho de uma panela e um garfo, sem nenhum texto explicando os ingredientes ou os níveis de calor. A IA perdeu detalhes cruciais, errou o tempo e produziu instruções que não funcionariam.

2. A "História" é o Rei
Quando a IA recebeu o texto escrito (mesmo sem as imagens), ela fez um trabalho muito bom. Acontece que as palavras escritas continham quase todas as informações necessárias. A IA conseguiu entender a lógica e escrever o código de computador com precisão.

3. A IA é um Excelente Rascunhista, Não um Editor Final
Ambos os modelos de IA foram surpreendentemente bons em entender o panorama geral e a lógica das regras. No entanto, cometeram tipos específicos de erros:

Ingredientes Faltantes: Às vezes, esqueceram de incluir códigos médicos específicos (como um tipo específico de medicamento).
Números Errados: Podiam errar um limite (por exemplo, dizendo "pressão arterial acima de 140" quando a regra era "acima de 150").
Inventar Coisas: Às vezes, a IA inventava regras ou condições que não estavam no documento original de forma alguma (uma "alucinação").
Confundir o Formato: Ao examinar diagramas, frequentemente não conseguiam descobrir como transformar uma seta visual em um comando lógico "se-então" de computador.

A Grande Conclusão

O artigo conclui que esses modelos de IA não estão prontos para substituir especialistas humanos ainda. Eles não podem simplesmente olhar para um documento bagunçado e cuspir um programa de computador perfeito e pronto para uso.

No entanto, eles são excelentes geradores de primeiro rascunho. Se você lhes der texto claro e estruturado, eles podem escrever um ponto de partida muito bom para o código. Mas, como podem cometer erros sutis, porém perigosos (como errar um número ou omitir uma regra), um especialista humano deve sempre verificar seu trabalho.

A Lição Final:
O maior problema não é que a IA não seja inteligente o suficiente; é que os documentos médicos não são escritos de uma maneira fácil para os computadores lerem. Se médicos e pesquisadores padronizassem suas anotações para serem mais claras e estruturadas (como escrever uma receita em um formato padrão em vez de rabiscar em um guardanapo), a IA se tornaria muito mais útil. Até lá, a IA é uma assistente útil, mas o especialista humano deve permanecer o chefe.

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

O Problema: A Receita "Perdida na Tradução"

O Experimento: Testando os Chefs de IA

Os Resultados: O Que Funcionou e o Que Não Funcionou

A Grande Conclusão

Resumo Técnico: Avaliação de Grandes Modelos de Linguagem para Traduzir Documentações Multimodais de Fenótipos em Algoritmos Executáveis de Fenotipagem de Prontuários Eletrônicos

Evaluating Large Language Models for Translating Multimodal Phenotype Documentations into Executable EHR Phenotyping Algorithms

O Problema: A Receita "Perdida na Tradução"

O Experimento: Testando os Chefs de IA

Os Resultados: O Que Funcionou e o Que Não Funcionou

A Grande Conclusão

Resumo Técnico: Avaliação de Grandes Modelos de Linguagem para Traduzir Documentações Multimodais de Fenótipos em Algoritmos Executáveis de Fenotipagem de Prontuários Eletrônicos

Mais como este