Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Este estudo avalia a capacidade de modelos de linguagem (LLMs) de capturar a incerteza de especialistas na análise qualitativa de valores humanos, constatando que, embora superem em métricas de conjunto e se aproximem do desempenho humano, eles divergem nos padrões de incerteza e nas classificações exatas, sendo que o modelo Qwen e métodos de ensemble demonstraram o melhor alinhamento com as análises de especialistas.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel, Tassos Stassopoulos

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando entender o que realmente motiva as pessoas. Você tem 12 conversas longas e profundas com moradores da China, onde eles falam sobre seus medos, sonhos e como lidam com o dinheiro. O desafio é: extrair dessas conversas os três valores mais importantes que guiam a vida de cada pessoa (como "Segurança", "Liberdade" ou "Tradição").

Normalmente, especialistas humanos (antropólogos e economistas) fazem esse trabalho. É como se fosse um grupo de chefs experientes tentando identificar os ingredientes secretos de um prato complexo. Mas esse trabalho é demorado, cansativo e, às vezes, até os chefs discordam entre si sobre qual é o ingrediente principal.

Agora, imagine que você traz para a cozinha uma Inteligência Artificial (IA) muito avançada (os chamados LLMs, como o ChatGPT) para ajudar a identificar esses ingredientes. A pergunta do artigo é: Essa IA consegue fazer o trabalho tão bem quanto os humanos? E, mais importante, ela consegue entender quando é difícil de identificar, assim como os humanos?

Aqui está o resumo da história, traduzido para uma linguagem simples:

1. O Teste de Chefes vs. Robôs

Os pesquisadores pegaram as conversas reais e pediram para vários modelos de IA (como Qwen, Llama, Mistral e DeepSeek) que lessem tudo e dissessem: "Quais são os 3 valores principais aqui?". Eles compararam as respostas da IA com as dos especialistas humanos.

  • O Resultado Surpreendente: Em termos de "acerto geral" (se a IA acertou quais valores estavam presentes, mesmo que não na ordem certa), as IAs foram incrivelmente boas, chegando perto do nível máximo que os humanos conseguem atingir. É como se o robô soubesse exatamente quais temperos estavam no prato.
  • O Problema: Quando o teste exigia dizer qual valor era o número 1, o número 2 e o número 3 (a ordem exata), as IAs travaram um pouco mais. Elas acertavam os ingredientes, mas tinham dificuldade em dizer qual era o "chefe" da receita.

2. A "Confusão" é Importante

Aqui está a parte mais interessante. Às vezes, os próprios especialistas humanos discordam. Se um especialista diz "É Segurança" e outro diz "É Liberdade", isso não é um erro; significa que a conversa era ambígua e difícil de interpretar.

  • A IA e a Incerteza: O estudo descobriu que as IAs não sentem a mesma "confusão" que os humanos.
    • Quando os humanos ficam em dúvida sobre um valor, a IA muitas vezes não fica. Ela dá uma resposta muito confiante, mesmo quando deveria estar hesitante.
    • É como se um robô dissesse: "Tenho 100% de certeza que é pimenta", enquanto os chefs humanos estivessem discutindo: "Será que é pimenta ou páprica?". A IA não consegue imitar a "dúvida saudável" dos especialistas.

3. O Viés do "Segurança"

Uma descoberta curiosa foi que todas as IAs tendiam a apontar o valor "Segurança" com muito mais frequência do que os humanos.

  • Analogia: Imagine que você está pedindo uma pizza. Os humanos dizem: "Aqui tem muito queijo, um pouco de pepperoni e um toque de manjericão". A IA diz: "Isso é uma pizza de segurança! Tem muito queijo e pepperinho!".
  • Isso pode ser um erro (a IA está "alucinando" ou tendenciosa), mas também pode ser um insight novo. Talvez a IA esteja percebendo um medo de segurança que os humanos, por estarem muito próximos do assunto, não notaram tão claramente.

4. O Poder do "Time" (Ensemble)

Os pesquisadores testaram uma ideia genial: e se, em vez de confiar em um único robô, nós fizéssemos quatro robôs lerem a mesma conversa e votarmos na resposta final?

  • Resultado: Funcionou muito bem! Quando os robôs trabalharam em equipe (usando métodos de votação), eles ficaram ainda mais precisos, superando o desempenho de cada robô sozinho. É como ter uma reunião de especialistas onde todos debatem e chegam a uma conclusão mais sólida.

5. A Melhor Estratégia

Nem todo jeito de pedir a tarefa funciona igual.

  • O "Perfil" é Chave: Quando os pesquisadores deram um pequeno resumo de quem era a pessoa entrevistada (ex: "Este é um pai de família de 40 anos em Pequim") antes de pedir a análise, a IA ficou muito melhor. Foi como dar um contexto ao detetive antes de ele começar a investigar.
  • Tudo de uma vez: Ler a entrevista inteira de uma vez foi melhor do que cortar em pedaços pequenos para a IA.

Conclusão: A IA é um Parceiro, não um Substituto

O estudo conclui que as IAs são excelentes assistentes para pesquisas qualitativas. Elas podem fazer o trabalho pesado de ler textos longos e identificar padrões que os humanos podem perder.

No entanto, elas ainda não substituem o julgamento humano em situações complexas e ambíguas. Elas não "sentem" a dúvida da mesma forma que nós. O ideal é usar a IA como um segundo par de olhos (ou um "segundo chef") que traz uma perspectiva diferente, mas sempre com um especialista humano no comando para validar as conclusões e entender o contexto cultural profundo.

Em resumo: A IA é um ajudante muito inteligente que acerta os ingredientes do prato, mas ainda precisa de um chef humano para decidir qual é o sabor principal e entender quando o prato está "confuso".