Imagine um pronto-socorro hospitalar movimentado, mas, em vez de pessoas entrando pela porta, milhares de pessoas estão digitando perguntas em uma tela de computador. Algumas estão perguntando sobre um resfriado leve, outras precisam agendar uma consulta médica de rotina, algumas têm sintomas que exigem atenção médica dentro de um dia, e poucas têm emergências que ameaçam a vida.

O desafio para o hospital é: Como você classifica essas milhares de mensagens rapidamente e com segurança, sem que um humano leia cada uma delas?

Este artigo é como um teste de direção para um novo tipo de "classificador digital" usando Inteligência Artificial (IA). Aqui está a explicação do que eles fizeram e do que descobriram, usando analogias simples.

O Problema: A Caixa de Entrada "Ruidosa"

Mensagens de pacientes online são bagunçadas. As pessoas não falam como médicos; elas escrevem como amigos. Elas podem esquecer de mencionar há quanto tempo estão doentes, quão forte é a dor ou se têm outros problemas de saúde.

O Objetivo: Classificar essas mensagens em quatro categorias:
1. Autocuidado: "Fique em casa, beba chá, você ficará bem."
2. Agendar uma Consulta: "Marque uma consulta para a próxima semana."
3. Revisão Urgente: "Ligue para um médico hoje ou amanhã."
4. Emergência: "Ligue para o 192 ou vá ao pronto-socorro agora mesmo."

O Experimento: O "Professor" vs. O "Aluno Esperto"

Os pesquisadores queriam ver se novos e poderosos modelos de IA (chamados Modelos de Linguagem Grandes ou LLMs) poderiam fazer essa classificação melhor do que programas de computador mais antigos e simples, especialmente quando não tinham uma grande pilha de exemplos pré-classificados para estudar.

O Jeito Antigo (Modelos Supervisionados): Imagine um aluno que precisa memorizar 700 exemplos específicos de mensagens de pacientes e suas respostas para aprender as regras. Eles são treinados com "rótulos de prata" (respostas geradas por uma IA, não por um médico humano).
O Jeito Novo (LLMs com Prompting): Imagine um aluno muito inteligente que leu milhões de livros. Em vez de memorizar 700 exemplos, você apenas dá a ele algumas regras e um par de exemplos (chamado "few-shot prompting") e pergunta: "Aqui está uma nova mensagem; para onde ela vai?"

Os Resultados: Quem Venceu a Corrida?

1. O "Aluno Esperto" (LLMs) se saiu melhor, mas não por uma margem esmagadora.
O melhor modelo de IA (Claude Haiku 4.5) acertou cerca de 47,5% das respostas quando recebeu 12 exemplos para aprender. O melhor modelo do "Jeito Antigo" (BioBERT) acertou cerca de 37,8%.

O Pulo do Gato: A diferença não foi grande o suficiente para dizer que a nova IA é definitivamente "melhor" em um sentido estatístico; suas pontuações se sobrepuseram. É como dois corredores terminando uma corrida onde um está ligeiramente à frente, mas a diferença é tão pequena que você não pode ter 100% de certeza de quem é mais rápido sem correr novamente.

2. A "Pontuação de Segurança" é mais importante do que a "Nota".
Em uma tarefa de classificação, é pior perder um incêndio (Emergência) do que enviar um não-emergencial para o corpo de bombeiros (Supertriagem).

Os pesquisadores descobriram que, embora os modelos de IA tivessem melhorado na "nota" geral (Macro-F1), eles foram muito melhores em segurança.
Os modelos de IA quase nunca perderam uma emergência real (Subtriagem Severa foi de 0% no teste), enquanto os modelos mais antigos perderam casos perigosos cerca de 30% das vezes.
Analogia: A IA é como um guarda de segurança que é ligeiramente mais lento para verificar identidades, mas é muito melhor em detectar uma ameaça real.

3. O "Meio Confuso" ainda é difícil.
A IA foi ótima em identificar "Autocuidado" (fácil) e "Emergência" (óbvio). Mas ela lutou com o meio-termo: "Revisão Urgente por Clínico".

Analogia: É fácil distinguir entre um corte de papel e um ataque cardíaco. É muito difícil distinguir entre uma dor de estômago ruim que precisa de um médico amanhã e uma que pode esperar uma semana. Mesmo a IA mais inteligente ficou confusa aqui.

4. A Estratégia "Duas-Cabeças" (Consenso)
Os pesquisadores tentaram um truque inteligente: E se eles usassem dois modelos de IA diferentes para classificar as mensagens?

Se as duas IAs concordarem: "Ok, nós dois achamos que isso é 'Autocuidado'. Vamos aceitar." (Isso funcionou muito bem).
Se as IAs discordarem: "Não conseguimos concordar. Vamos enviar isso para um médico humano analisar."
O Resultado: Essa abordagem "Duas-Cabeças" criou uma rede de segurança. Não significava que a IA poderia trabalhar sozinha; significava que a IA poderia atuar como um filtro para ajudar os humanos a se concentrarem nos casos complicados.

A Conclusão: Um Assistente Útil, Não um Substituto

O artigo conclui que esses modelos de IA não estão prontos para trabalhar sozinhos. Eles não são médicos "autônomos".

Em vez disso, pense neles como um assistente de enfermagem de triagem de alta tecnologia:

Eles podem classificar rapidamente as perguntas fáceis de "autocuidado".
Eles podem sinalizar as emergências óbvias para que ninguém as perca.
Mas, para os casos confusos e de meio-termo, eles devem sempre passar a mensagem para um médico humano.

Em resumo: A IA é uma ótima ferramenta para ajudar os humanos a priorizar sua carga de trabalho, mas nunca deve ser o tomador de decisão final para a segurança do paciente.

Resumo Técnico: Modelos de Linguagem de Grande Escala com Poucos Exemplos para Categorização de Triagem Acionável de Inquéritos de Pacientes Online

Declaração do Problema

Inquéritos de pacientes em plataformas de saúde são tipicamente informais, incompletos e escritos antes de uma avaliação profissional. Apesar dessas limitações, os sistemas de saúde exigem métodos escaláveis para rotear essas mensagens para um nível apropriado de acompanhamento clínico. Este estudo enquadra o problema como uma tarefa de triagem acionável de quatro classes, distinta da geração de diagnósticos ou da classificação geral de texto médico. O objetivo é atribuir exatamente um de quatro rótulos de roteamento a um inquérito de paciente:

Autocuidado: Gerenciável em casa sem contato clínico.
Agendar-consulta: Requer avaliação clínica não urgente (dias a semanas).
Revisão-clínica-urgente: Requer revisão oportuna dentro de 24–48 horas.
Encaminhamento-para-emergência: Requer avaliação de emergência imediata.

A tarefa é desafiadora devido à falta de detalhes clínicos chave (duração, gravidade, sinais vitais) no texto escrito pelo paciente, à raridade de casos de alta acuidade e à assimetria clínica dos erros, onde a subtriagem (perder um caso urgente) é mais perigosa do que a supertriagem.

Metodologia

Construção de Dados

O estudo utiliza o corpus HealthCareMagic-100K, um conjunto de dados público de trocas anônimas entre pacientes e médicos.

Pré-processamento: Os registros foram filtrados para remover mensagens com menos de 20 tokens ou mais de 500 tokens, restando 110.163 mensagens utilizáveis.
Amostragem Estratificada: Para abordar o desequilíbrio de classes (especificamente a escassez de casos de emergência), foi empregada uma estratégia de amostragem estratificada por palavras-chave. Os registros foram pontuados com base em palavras-chave de emergência e frases de escalonamento médico, e depois atribuídos a grupos (autocuidado, agendar-consulta, urgente, emergência) para enriquecer o pool de trabalho com inquéritos de maior acuidade.
Divisões de Dados: De um pool de trabalho de 1.040 registros, foram criados três conjuntos disjuntos:
- Conjunto de Treinamento Prateado (N=700): Rotulado automaticamente pelo Claude Sonnet 4.5. Usado para treinar baselines supervisionadas.
- Conjunto de Avaliação Dourado (N=300): Calibrado por humanos por dois pesquisadores usando uma diretriz de anotação refinada. Usado para avaliação final.
- Pool de Poucos Exemplos (N=40): Exemplos de alta confiança, verificados por humanos, usados para demonstrações de aprendizado em contexto.

Anotação e Rotulagem

Uma diretriz de anotação estruturada foi desenvolvida através de um piloto com duas pessoas e seis rodadas de refinamento. Ela enfatiza "triagem apenas a partir do texto", distinguindo sintomas ativos de consultas informativas e aplicando limites mais baixos para populações vulneráveis.

Rótulos Prateados: Gerados pelo Claude Sonnet 4.5.
Calibração Dourada: Revisores humanos compararam seus rótulos independentes com os rótulos iniciais do Sonnet. Para o conjunto dourado, 38% dos rótulos foram revisados, resultando em um $\kappa$ de Cohen Sonhumano de 0,35, destacando a necessidade de calibração humana.

Configuração Experimental

O estudo compara baselines supervisionadas contra Modelos de Linguagem de Grande Escala (LLMs) com prompts em condições de poucos recursos.

Baselines Supervisionadas:
- TF-IDF: Regressão Logística, Random Forest e XGBoost treinados no conjunto prateado de 700 registros.
- BioBERT: BioBERT-v1.1 ajustado finamente no conjunto prateado.
- Nota: Ambas as condições de treinamento "padrão" (700 exemplos completos) e "balanceada" (subamostrada para 91 exemplos por classe) foram avaliadas.
LLMs com Prompts: Seis modelos (Llama3.1-8B, Qwen3-8B, Mistral-7B, DeepSeek-R1-7B, GPT-4o-mini, Claude Haiku 4.5) avaliados sem atualizações de parâmetros.
Condições de Prompting: Os modelos foram testados sob configurações de 0-shot, 4-shot (um exemplo por classe) e 12-shot (três exemplos por classe).

Métricas de Avaliação

Métrica Primária: Macro-F1 (para considerar o desequilíbrio de classes).
Métricas Conscientes de Segurança: Recall de emergência, recall de urgente ou superior, taxa de subtriagem (prever uma gravidade menor que a real) e taxa de subtriagem severa (lacuna de $\ge$ 2 níveis).
Análise de Consenso: Uma simulação oráculo de Humano-no-Loop (HITL) onde as previsões são aceitas automaticamente apenas se dois modelos concordarem; caso contrário, os casos são escalonados para revisão humana.

Principais Resultados

Desempenho de Classificação

Baselines Supervisionadas: A baseline supervisionada mais forte foi o BioBERT-v1.1 (padrão) com um macro-F1 de 0,378. O desempenho foi notavelmente fraco na classe encaminhamento-para-emergência (F1 $\approx$ 0,26).
Desempenho de LLMs: O prompting com poucos exemplos melhorou o desempenho. O modelo mais forte, Claude Haiku 4.5 (12-shot), alcançou um macro-F1 de 0,475. Outros principais desempenhos incluíram Llama3.1-8B (0,464) e Qwen3-8B (0,444).
Significância Estatística: Embora os LLMs tenham superado as baselines nas estimativas pontuais, os intervalos de confiança se sobrepuseram. Testes de McNemar indicaram que apenas o Llama3.1-8B foi significativamente melhor que o BioBERT-v1.1; os principais LLMs não foram significativamente diferentes entre si.

Desempenho Específico por Classe e de Segurança

Dificuldade da Classe: "Autocuidado" foi a classe mais fácil para os LLMs (F1 > 0,65). "Revisão-clínica-urgente" permaneceu a classe mais difícil em todos os modelos (F1 < 0,35), refletindo a ambiguidade de casos de acuidade intermediária.
Métricas de Segurança: Os LLMs demonstraram perfis de segurança superiores em comparação com as baselines supervisionadas.
- Subtriagem: Todas as configurações principais de LLM alcançaram uma taxa de subtriagem severa de 0,000 no conjunto dourado, enquanto as baselines supervisionadas variaram de 0,269 a 0,308.
- Recall: O GPT-4o-mini (12-shot) alcançou o maior recall de urgente ou superior (0,984) e a menor taxa de subtriagem (0,053), apesar de ter um macro-F1 menor que o Claude Haiku 4.5.

Sensibilidade ao Prompt e Consenso

Sensibilidade ao Prompt: Os ganhos de desempenho do prompting com poucos exemplos não foram monotônicos ou uniformes. Enquanto o Claude Haiku 4.5 melhorou monotonicamente com mais exemplos, o Qwen3-8B atingiu o pico em 4-shot, e o Llama3.1-8B teve desempenho pior em 4-shot do que em 0-shot.
Consenso de Dois Modelos: A concordância entre os modelos foi altamente dependente do rótulo.
- Autocuidado: Alta confiabilidade de concordância (acurácia de consenso > 90%).
- Revisão-clínica-urgente: Baixa confiabilidade de concordância (acurácia de consenso $\approx$ 25%).
- Oráculo-HITL: Simular um fluxo de trabalho onde discordâncias são escalonadas para humanos rendeu um macro-F1 teórico de até 0,708 (GPT-4o-mini + Llama3.1-8B), sugerindo potencial significativo para suporte à decisão.

Significância e Alegações

O artigo conclui que LLMs com prompts podem apoiar a priorização de triagem e a revisão humana seletiva, mas não estão prontos para implantação autônoma.

Suporte à Decisão, Não Substituição: Os autores argumentam que o valor dos LLMs reside em sua capacidade de interpretar sintomas em texto livre e seguir diretrizes complexas sem ajuste fino específico para a tarefa. No entanto, a dificuldade persistente em classificar casos de "revisão-clínica-urgente" e o risco de subtriagem em cenários de alto risco impedem o roteamento autônomo.
Integração de Fluxo de Trabalho: O estudo propõe uma estratégia de previsão seletiva onde os LLMs lidam com acordos de baixo risco de "autocuidado" (que são confiáveis) e sinalizam casos de alto risco ou incertos para revisão humana.
Avaliação Consciente de Segurança: O artigo enfatiza que métricas agregadas como macro-F1 obscurecem compensações críticas de segurança. Modelos com pontuações F1 mais baixas podem ser preferíveis se minimizarem a subtriagem, uma descoberta que exige frameworks de avaliação conscientes de segurança em PLN clínico.
Limitações: Os autores reconhecem limitações, incluindo o uso de um único corpus público, o tamanho modesto do conjunto dourado (particularmente para casos de emergência), a dependência de rótulos prateados para treinamento supervisionado e a natureza offline da avaliação. Eles afirmam que validação prospectiva com revisores clínicos é necessária antes que alegações sobre redução de carga de trabalho ou segurança possam ser feitas.

Em resumo, este trabalho fornece uma referência rigorosa para LLMs na triagem de pacientes online, demonstrando que, embora LLMs com poucos exemplos superem as baselines supervisionadas tradicionais em ambientes de poucos recursos, sua implantação deve ser estritamente delimitada por supervisão humana e sinais de confiança dependentes de rótulos.

Few-Shot Large Language Models for Actionable Triage Categorization of Online Patient Inquiries