Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô conselheiro superinteligente (chamado de LLM, ou Modelo de Linguagem Grande) que foi treinado para conversar sobre saúde mental. Ele é como um amigo muito bem lido, pronto para ouvir seus problemas e dar conselhos. Mas, e se esse amigo, por mais inteligente que seja, às vezes inventar fatos ou esquecer de avisar coisas vitais quando você está em perigo?

É exatamente sobre isso que este estudo da Universidade de Vanderbilt trata. Os pesquisadores queriam descobrir por que esse robô falha e quando ele falha mais.

Aqui está a explicação simplificada, usando algumas analogias divertidas:

1. O Grande Experimento: A Receita "UTCO"

Para testar o robô, os pesquisadores não apenas fizeram perguntas aleatórias. Eles criaram uma "receita" chamada UTCO para montar as perguntas. Pense nisso como montar um sanduíche com quatro camadas controladas:

U (Usuário): Quem está perguntando? (Ex: Uma mãe, um adolescente, um idoso).
T (Tópico): Sobre o que é a pergunta? (Ex: Depressão, ansiedade, crise de suicídio).
C (Contexto): Qual é a história por trás? (Ex: "Estou me sentindo assim há 3 dias" vs. "Minha vida inteira foi assim").
O (Tom): Qual é a emoção? (Ex: Desesperado, confuso, furioso, esperançoso).

Eles criaram mais de 2.000 variações dessas perguntas para ver como o robô reagiria a cada combinação. Foi como testar o mesmo carro em diferentes tipos de estrada: na chuva, na areia, subindo uma montanha, etc.

2. Os Dois Tipos de "Acidentes"

O estudo focou em dois tipos de falhas perigosas:

Alucinações (O "Robô Mentiroso"): É quando o robô inventa informações. Imagine que você pergunta "Qual remédio é bom para minha dor de cabeça?" e ele responde com um nome de remédio que não existe ou diz que você deve tomar algo perigoso. Isso é uma alucinação.
Omissões (O "Robô que Esquece"): É quando o robô dá uma resposta que parece legal e empática, mas esquece de dizer algo crucial. Imagine que você diz "Estou pensando em me machucar" e ele responde "Tente respirar fundo e beber água", mas esquece de dizer "Ligue para o CVV ou vá ao hospital agora". Ele foi educado, mas falhou em salvar sua vida.

O Resultado Surpreendente:
O robô inventou coisas (alucinações) em 6,5% das vezes. Mas ele esqueceu informações vitais (omissões) em 13,2% das vezes. Ou seja, ele falhou duas vezes mais em deixar de avisar sobre perigos do que em inventar mentiras. E pior: nas perguntas sobre suicídio, ele quase sempre esquecia de dar os recursos de emergência.

3. O Que Faz o Robô Falhar? (A Descoberta Principal)

Os pesquisadores queriam saber: "Será que o robô falha mais com certos tipos de pessoas (idade, gênero, raça) ou com certos tipos de perguntas?"

A resposta foi surpreendente: Não importa quem pergunta, mas sim como a pergunta é feita.

A Analogia do "Sinal de Trânsito":
Imagine que o robô é um motorista. Se você der a ele um mapa simples e direto ("Vá para o norte"), ele vai bem. Mas, se você der a ele uma história longa, confusa, cheia de detalhes emocionais e com pronomes ambíguos ("Eu não sei mais o que fazer com tudo isso, sabe?"), o robô se perde.
- Contexto e Tom são os vilões: Perguntas longas, cheias de narrativas pessoais e com tons de desespero ou confusão confundiram o robô.
- Quem pergunta não importa: Depois de controlar o tipo de pergunta, não houve diferença se a pergunta vinha de um homem, uma mulher, um idoso ou um jovem. O robô falhou da mesma forma para todos, desde que a pergunta fosse complexa ou emocionalmente carregada.

4. Por Que Isso Acontece?

Pense no robô como um estudante muito inteligente, mas que às vezes tenta "adivinhar" a resposta para não parecer burro.

Quando a pergunta é curta e clara, ele segue as regras.
Quando a pergunta é uma história longa e triste (comum em crises reais), ele tenta ser "empático" e "confortante", mas acaba perdendo o foco na segurança. Ele foca em ser um bom ouvinte e esquece de ser um bom profissional de saúde, deixando de lado os avisos de segurança.

5. O Que Isso Significa para o Futuro?

O estudo nos dá duas lições importantes:

Pare de testar com perguntas curtas: A maioria dos testes de inteligência artificial usa perguntas curtas e diretas (como em um teste de múltipla escolha). Isso é como testar um carro de corrida apenas em uma pista de kart. Para ver se ele é seguro, precisamos testá-lo em estradas de terra, com chuva e buracos (ou seja, com perguntas longas, confusas e emocionais, como as que as pessoas realmente fazem na vida real).
O "Silêncio" é perigoso: Precisamos nos preocupar tanto com o que o robô não diz quanto com o que ele diz. Em saúde mental, não avisar sobre um recurso de emergência é tão perigoso quanto dar uma mentira.

Resumo Final:
Este estudo nos alerta que, ao usar robôs para ajudar pessoas em crise, não podemos confiar apenas em testes simples. Precisamos garantir que, mesmo quando a pessoa estiver chorando, confusa e contando uma história longa, o robô saiba exatamente quando parar de conversar e dizer: "Você precisa de ajuda profissional agora". A segurança não é sobre ser o mais inteligente, é sobre não esquecer o básico quando a emoção está no auge.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

O aumento do uso de Modelos de Linguagem de Grande Escala (LLMs) em sistemas de informática em saúde para consumidores, especialmente em contextos de saúde mental fora do ambiente clínico, levanta preocupações críticas de segurança. Embora os LLMs ofereçam respostas instantâneas, a literatura atual apresenta lacunas significativas:

Falhas de Segurança: Duas modalidades de falha são críticas: alucinações (informações clínicas fabricadas ou incorretas) e omissões (falha em fornecer informações clinicamente necessárias ou orientações de segurança, como recursos para crises).
Limitações de Avaliação: A maioria das avaliações atuais utiliza conjuntos de perguntas de referência (benchmarks) estáticos e curtos, que não capturam a complexidade das interações do mundo real, como narrativas longas, alto sofrimento emocional e nuances de contexto.
Risco: Em saúde mental, as omissões são particularmente perigosas porque podem parecer respostas coerentes e empáticas, mas falham em fornecer passos de segurança essenciais, levando a danos silenciosos.

2. Metodologia

Os autores desenvolveram e aplicaram uma estrutura rigorosa para avaliar o modelo Llama 3.3 (70B):

Framework UTCO (User, Topic, Context, Tone):
- Foi criado um corpus de 2.075 prompts gerados sistematicamente, decompondo cada consulta em quatro elementos controláveis:
  1. User (U): Dados demográficos e papel (ex: cuidador, adolescente, gênero).
  2. Topic (T): Domínios clínicos (ex: depressão, suicídio, medicação).
  3. Context (C): Narrativa situacional (extraída de fóruns reais e cenários curados).
  4. Tone (O): Tom afetivo (ex: ansioso, desesperado, urgente).
- O processo de geração envolveu amostragem controlada, filtragem automática de realismo (via GPT-4o) e revisão por especialistas para garantir consistência interna.
Análise de Falhas:
- Três anotadores independentes rotularam as respostas quanto a alucinações e omissões, com resolução de discordâncias por especialistas médicos.
- Definições: Alucinação = conteúdo clínico incorreto/fabricado; Omissão = falta de orientação de segurança ou conteúdo clínico essencial esperado.
Estratégia Analítica de Três Estágios:
1. RQ1 (Associação Global): Uso de modelos de Gradient Boosted Trees e valores SHAP para identificar quais elementos do prompt (U, T, C, O) mais contribuem para o risco de falha.
2. RQ2 (Análise de Sensibilidade): Uso de Propensity Score Matching (emparelhamento por pontuação de propensão) em um esquema de "leave-one-out". Isso permitiu isolar o efeito de um único elemento (ex: variar o Contexto mantendo Usuário, Tópico e Tom constantes) para determinar a sensibilidade do risco de falha a cada componente.
3. RQ3 (Análise de Mecanismos): Emparelhamento de casos de falha com controles de não-falha altamente similares (distância de cosseno $\le$ 0,15) para identificar gatilhos linguísticos residuais (ex: ambiguidade, carga emocional) usando um "julgador" LLM validado por humanos.

3. Resultados Principais

Taxas de Falha:
- Alucinações: 6,5% (134 casos).
- Omissões: 13,2% (273 casos). As omissões foram significativamente mais frequentes em prompts relacionados a crises e ideação suicida (36,2% de taxa de omissão nessa categoria).
Fatores de Risco (RQ1 e RQ2):
- Contexto e Tom são Críticos: As falhas foram mais consistentemente associadas ao Contexto (C) e ao Tom (O).
- Características do Contexto: Prompts mais longos, com fontes naturalistas, maior legibilidade (níveis de leitura mais altos), maior densidade de termos médicos e ambiguidade pronominal estiveram fortemente correlacionados com falhas.
- Tom de Alto Sofrimento: Indicadores como "desesperado" (hopeless), "ansioso" e "confuso" aumentaram o risco de omissão.
- Fundo do Usuário (U): Após o equilíbrio estatístico (matching), os indicadores de perfil demográfico do usuário não mostraram diferenças sistemáticas nos riscos de falha. O modelo falha mais devido à forma como a pergunta é estruturada e narrada do que devido a quem pergunta.
Mecanismos de Falha (RQ3):
- Ambiguidade: Foi o fator de maior severidade em ambos os tipos de falha.
- Omissões vs. Alucinações:
  - As omissões foram mais sensíveis a carga emocional e gatilhos de crise, onde o modelo falha em traduzir a narrativa emocional em orientações de segurança concretas.
  - As alucinações estiveram mais associadas à falta de restrições clínicas (underspecification), onde o modelo tenta preencher lacunas de informação com confiança excessiva.

4. Contribuições Chave

Framework UTCO: Introdução de uma metodologia padronizada e modular para estresse de prompts em saúde mental, permitindo a variação controlada de elementos narrativos e afetivos.
Reavaliação da Omissão: Evidência empírica de que as omissões são uma falha de segurança mais prevalente e insidiosa do que as alucinações em cenários de crise, exigindo ser tratada como uma métrica de segurança primária.
Desacoplamento de Fatores: Demonstração de que o risco de falha em LLMs de saúde mental é impulsionado principalmente pela complexidade narrativa e carga emocional do prompt, e não por características demográficas do usuário.
Análise de Gatilhos Linguísticos: Identificação de padrões específicos (ambiguidade pronominal, falta de restrições, sobrecarga de intenção) que precedem falhas, mesmo em prompts estruturalmente similares.

5. Significado e Implicações

Para Avaliação (Benchmarks): Os benchmarks atuais, baseados em perguntas curtas e diretas, subestimam drasticamente os riscos de omissão. É necessário adotar protocolos de "estresse" que incluam narrativas longas, fontes naturalistas e variações de tom emocional.
Para Mitigação e Design:
- Sistemas de saúde mental devem priorizar a gestão da incerteza e a completude segura.
- Estratégias devem incluir a detecção de sinais de crise para acionar automaticamente recursos de segurança, mesmo que não solicitados explicitamente.
- O modelo deve ser capaz de fazer perguntas de esclarecimento quando houver ambiguidade ou falta de restrições clínicas, em vez de tentar adivinhar ou fornecer respostas genéricas.
Ética: A ênfase na prevenção de omissões alinha-se aos princípios de não maleficência e beneficência, garantindo que os usuários recebam informações vitais para a tomada de decisão segura, especialmente em momentos de alto sofrimento.

Em resumo, o estudo conclui que a segurança de LLMs em saúde mental depende menos de quem pergunta e mais de como a pergunta é formulada. A complexidade narrativa e a carga emocional são os principais preditores de falhas, exigindo novas abordagens de avaliação e mitigação focadas na integridade da informação de segurança.

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

1. O Grande Experimento: A Receita "UTCO"

2. Os Dois Tipos de "Acidentes"

3. O Que Faz o Robô Falhar? (A Descoberta Principal)

4. Por Que Isso Acontece?

5. O Que Isso Significa para o Futuro?

1. Problema e Motivação

2. Metodologia

3. Resultados Principais

4. Contribuições Chave

5. Significado e Implicações

Mais como este

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora

Detecting Abnormal User Feedback Patterns through Temporal Sentiment Aggregation

Phonological Fossils: Machine Learning Detection of Non-Mainstream Vocabulary in Sulawesi Basic Lexicon

Hierarchical Chain-of-Thought Prompting: Enhancing LLM Reasoning Performance and Efficiency