Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

Este estudo avalia o desempenho de sete modelos de linguagem de código aberto no suporte à redação de relatórios de patologia em japonês, concluindo que, embora existam variações nas preferências por explicações, esses modelos demonstram utilidade em tarefas específicas como relatórios estruturados e correção de erros tipográficos.

Masataka Kawai, Singo Sakashita, Shumpei Ishikawa, Shogo Watanabe, Anna Matsuoka, Mikio Sakurai, Yasuto Fujimoto, Yoshiyuki Takahara, Atsushi Ohara, Hirohiko Miyake, Genichiro Ishii

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um médico patologista no Japão. Seu trabalho é como ser um detetive que analisa tecidos do corpo para descobrir o que está acontecendo dentro do paciente. Depois de analisar tudo, você precisa escrever um relatório técnico, cheio de regras específicas, termos médicos difíceis e formatos padronizados. É um trabalho exaustivo, que exige muita atenção aos detalhes.

Agora, imagine que você tem um assistente de inteligência artificial (IA) que pode ajudar a escrever esses relatórios. A pergunta que os autores deste estudo fizeram foi: "Quais assistentes gratuitos e de código aberto funcionam melhor para ajudar médicos japoneses a escreverem esses relatórios?"

Eles testaram 7 "cérebros" de IA diferentes (modelos de linguagem) em três situações principais. Vamos usar analogias para entender o que descobriram:

1. O Teste do "Mestre de Formatação" (Organização de Dados)

A Situação: Imagine que você tem uma lista de ingredientes solta (dados brutos) e precisa transformá-la em uma receita perfeita, seguindo um livro de receitas oficial (o formato do relatório).
O que aconteceu:

  • Alguns assistentes foram ótimos em apenas copiar e colar, mantendo o formato perfeito.
  • Outros, no entanto, falharam quando precisavam pensar. Por exemplo, se a IA precisava calcular o tamanho do tumor ou o estágio da doença baseada em números, os modelos comuns se confundiam, como um aluno que sabe decorar a fórmula, mas não sabe aplicá-la.
  • A Vencedora: Os modelos chamados de "Thinking" (Pensadores) e os modelos especializados em medicina foram os únicos que conseguiram fazer os cálculos corretamente, como um matemático que não apenas decorou a tabela, mas entende a lógica.

2. O Teste do "Caçador de Erros" (Correção de Digitação)

A Situação: Imagine que você escreveu um relatório, mas cometeu alguns erros de digitação, trocou letras ou esqueceu palavras. Você pede para a IA corrigir tudo.
O que aconteceu:

  • A IA precisa ser como um editor de texto muito esperto, mas cuidadoso. Ela não pode apenas "chutar" uma correção e mudar o significado da frase.
  • Um modelo especializado em medicina (MedGemma) e um modelo "Pensador" foram muito bons em pegar os erros difíceis, como trocar um caractere japonês por outro que muda o sentido médico.
  • No entanto, um dos modelos (SIP-jmed) foi tão "entusiasta" na correção que às vezes apagava frases inteiras, como um editor que, ao tentar consertar um erro, rasga a página inteira.
  • A Lição: Para corrigir erros, é melhor ter um especialista que conhece o vocabulário médico do que um generalista.

3. O Teste do "Tradutor de Significado" (Explicações para Pacientes e Residentes)

A Situação: Agora, a IA precisa escrever uma explicação simples sobre o diagnóstico, algo que um residente de medicina iniciante ou até o próprio paciente possa entender.
O que aconteceu:

  • Aqui, a coisa ficou estranha. Diferente dos testes anteriores, onde havia uma resposta certa ou errada, aqui tudo dependeu de quem estava lendo.
  • Um patologista podia achar a explicação de uma IA "perfeita" (nota 5), enquanto outro achava "confusa" (nota 2).
  • Foi como pedir para 5 amigos avaliarem uma música nova: um ama, outro odeia, e o terceiro acha "ok". Não houve consenso.
  • A Lição: A IA ainda não consegue "ler a mente" de todos os médicos. O que parece claro para um, parece confuso para outro.

O Veredito Final (Resumo Simples)

Os autores concluíram que:

  1. Não existe um "super-herói" único: Nenhum modelo de IA venceu em tudo. Cada um tem sua especialidade.
  2. O "Pensador" é bom para lógica: Se você precisa que a IA faça cálculos ou deduções complexas, use os modelos que têm a capacidade de "pensar" antes de responder.
  3. O "Especialista" é bom para detalhes: Se você precisa corrigir erros de texto médico ou escrever explicações, os modelos treinados especificamente para medicina funcionam melhor.
  4. O fator humano é imprevisível: Mesmo com a IA ajudando, a preferência de cada médico por como o texto é escrito varia muito.

Em suma: A IA de código aberto (gratuita) já é útil para ajudar médicos japoneses a escreverem relatórios, mas não é mágica. Ela funciona bem como um estagiário inteligente que precisa ser supervisionado: ótimo para organizar dados e corrigir erros, mas ainda precisa de um humano para decidir qual explicação soa melhor e para verificar os cálculos complexos. Além disso, como são modelos locais (rodando no computador do hospital), eles protegem melhor a privacidade dos pacientes do que enviar dados para a nuvem de empresas gigantes.