Retrieval-Augmented Claude Opus 4.7 and GPT-5.5… — Explicação em linguagem simples

Autores originais: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Publicado 2026-05-13

📖 5 min de leitura🧠 Leitura aprofundada

Ver no medRxiv ↗PDF ↗

CC BY 4.0

Autores originais: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

Artigo original sob licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Imagine um exame final de alto risco para médicos que se especializam em analisar imagens do coração usando traçadores radioativos especiais. Este é o "Exame de Conselho de Cardiologia Nuclear". Por anos, a Inteligência Artificial (IA) tem tentado fazer essa prova, mas continuava falhando, obtendo pontuações inferiores à média do estudante de medicina.

Este artigo conta a história de como dois novos modelos de IA superinteligentes finalmente passaram na prova com louvor, superando o estudante humano médio.

O Cenário: A Prova e a "Cola"

A prova tem 168 questões. Algumas são apenas texto (como um quiz de curiosidades), mas cerca de 27 delas exigem a análise de imagens médicas complexas de corações.

No passado, quando a IA tentava fazer essa prova "no escuro" (sem nenhuma ajuda), o melhor que conseguia era acertar cerca de 63%. Isso é uma nota reprovatória. O estudante de medicina médio (um "fellow em treinamento") pontuou 78%.

Para este novo estudo, os pesquisadores forneceram à IA uma "cola" massiva. Isso não foi apenas uma rápida pesquisa no Google; foi um sistema de Geração Aumentada por Recuperação (RAG). Pense nisso como dar à IA uma biblioteca digital perfeita e pesquisável contendo os livros didáticos oficiais, atlas e diretrizes médicas para cardiologia nuclear. Quando a IA vê uma pergunta, ela mergulha instantaneamente nesta biblioteca, encontra a página exata com a resposta e usa isso para formular sua resposta.

Os Concorrentes

Os pesquisadores testaram dois novos modelos de IA de próxima geração:

Claude Opus 4.7: Um modelo que usa um sistema de busca local e transparente (como um bibliotecário que mostra exatamente quais livros retirou da estante).
GPT-5.5: Um modelo que usa um sistema de busca baseado em nuvem (como um bibliotecário que encontra os livros para você, mas não mostra o processo).

Os Resultados: A IA Supera o Estudante Médio

Quando essas duas IAs fizeram a prova cinco vezes cada, os resultados foram surpreendentes:

As Pontuações: Ambos os modelos pontuaram entre 86% e 87%.
A Comparação: Isso é significativamente maior que a pontuação média do estudante humano de 78%. Na verdade, se você alinhasse os 13 estudantes humanos e as 2 IAs, as IAs se classificariam entre as 5 melhores, superando 8 ou 9 dos humanos.
A Velocidade do Progresso: Este é um salto massivo. Apenas 18 meses atrás, a melhor IA pontuou 63%. Agora, com a "cola" (RAG), elas saltaram 23 pontos percentuais.

As Duas Fraquezas

Embora as IAs vencem, elas tiveram duas dificuldades específicas:

O Problema da "Imagem": As IAs foram ótimas em questões de texto (pontuando quase 89%), mas tropeçaram nas questões de imagem. Elas acertaram cerca de 73–77% nas imagens. Os humanos ainda eram melhores nisso, pontuando 81,5%.
- Analogia: Imagine que a IA é um professor brilhante que consegue recitar todo o livro didático de memória, mas ainda fica confuso ao olhar para um raio-X borrado. Ela conhece a teoria perfeitamente, mas ainda está aprendendo a "ver" a imagem.
O "Glitch" de Segurança (apenas GPT-5.5): O GPT-5.5 recusou-se a responder cerca de 7% das perguntas. Ele diria: "Sinto muito, não posso ajudar com isso", embora as perguntas fossem apenas questões padrão de exame médico sobre medicamentos cardíacos ou segurança radiológica.
- Analogia: É como um bibliotecário muito cauteloso que se recusa a entregar um livro sobre "como construir uma bomba", mesmo que você esteja pedindo a um estudante de física uma questão legítima de exame sobre energia nuclear. Os filtros de segurança da IA eram sensíveis demais, fazendo com que ela perdesse pontos. O Claude Opus 4.7 não teve esse problema; ele respondeu a tudo.

O Que os Autores Realmente Dizem (e Não Dizem)

O artigo é muito cuidadoso sobre o que isso significa:

O Que É: Prova que, com os materiais de referência adequados, a IA pode aprender os fatos e as regras da cardiologia nuclear melhor do que o residente médio. Os autores sugerem que essas ferramentas poderiam ser usadas como auxílios educacionais para ajudar os estudantes a estudar ou como ferramentas de referência para verificar fatos em uma sala de leitura.
O Que Não É: Os autores afirmam explicitamente que passar em um teste de múltipla escolha não significa que a IA está pronta para ser médica. A medicina real envolve conversar com pacientes, lidar com incertezas e tomar decisões complexas de julgamento que um exame de múltipla escolha não pode medir. A IA é um livro de referência poderoso, não um substituto para um médico humano.

A Conclusão

No espaço de um ano e meio, a IA passou de reprovar no exame de conselho de cardiologia nuclear a superar o estudante humano médio, desde que tenha acesso aos livros didáticos adequados. No entanto, ela ainda luta com a interpretação de imagens médicas, e um dos modelos está "com medo" demais para responder a certas perguntas legítimas. Embora seja um grande salto adiante para as ferramentas de educação médica, o artigo conclui que essas máquinas são assistentes, não substitutas, para médicos humanos.

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

O Cenário: A Prova e a "Cola"

Os Concorrentes

Os Resultados: A IA Supera o Estudante Médio

As Duas Fraquezas

O Que os Autores Realmente Dizem (e Não Dizem)

A Conclusão

Resumo Técnico: LLMs com Aumento por Recuperação Superam o Desempenho Humano em Exames de Conselho de Cardiologia Nuclear

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

O Cenário: A Prova e a "Cola"

Os Concorrentes

Os Resultados: A IA Supera o Estudante Médio

As Duas Fraquezas

O Que os Autores Realmente Dizem (e Não Dizem)

A Conclusão

Resumo Técnico: LLMs com Aumento por Recuperação Superam o Desempenho Humano em Exames de Conselho de Cardiologia Nuclear

Mais como este