Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de amigos muito inteligentes, mas que cresceram lendo exatamente os mesmos livros, assistindo aos mesmos filmes e frequentando as mesmas escolas. Um dia, vocês estão jogando um jogo de perguntas e respostas sobre um assunto que ninguém sabe ao certo (como "o que vai acontecer no futuro" ou "qual é a resposta correta para um problema sem solução").

A ideia comum é: "Se a gente perguntar para todos e seguir a opinião da maioria, vamos acertar!". Isso é o que chamamos de "Sabedoria das Multidões".

Este artigo científico diz, de forma bem direta: Isso não funciona com Inteligência Artificial (IA).

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: "Todos pensam igual"

Imagine que você tem 500 pessoas em uma sala. Se você perguntar "qual é a capital da França?", quase todas vão dizer "Paris". Isso é ótimo. Mas, e se você perguntar algo difícil e sem resposta certa, como "qual é o número de átomos em uma estrela distante que ninguém nunca viu"?

Se essas 500 pessoas leram os mesmos 5 livros de astronomia, elas provavelmente vão todas inventar o mesmo número errado. Elas não vão errar de formas diferentes (algumas dizendo 100, outras 200, outras 500). Elas vão errar todas dizendo "42".

A lição: Quando as IAs (os "amigos") são treinadas com os mesmos dados, elas desenvolvem os mesmos "vícios" e cegueiras. Se uma erra, as outras erram da mesma maneira.

2. A Ilusão da Confiança

Você pode pensar: "Ok, mas e se a gente perguntar para a IA o quão confiante ela está na resposta? A gente escolhe a resposta de quem parece mais seguro."

O estudo mostra que isso é uma armadilha. É como um aluno que não sabe a resposta da prova, mas fala com tanta convicção que o professor acaba acreditando nele.

A analogia: A IA é ótima em dizer "eu acho que todo mundo vai concordar comigo", mas péssima em dizer "eu sei que estou certo". Ela confunde popularidade com verdade. Se todos estão errando juntos, a IA fica superconfiante de que está certa, porque "todo mundo" está de acordo.

3. O Teste do "Aleatório" (A Prova Definitiva)

Para provar que o problema não é apenas "falta de conhecimento", os cientistas fizeram um teste maluco:
Eles deram para as IAs uma sequência de letras aleatórias (tipo gP%!mdq4k'q=T/rp) e perguntaram: "Qual é a resposta correta: A, B, C ou D?".

Obviamente, não existe resposta certa. É como perguntar "qual é o gosto da cor azul?".

O resultado: Mesmo sem nenhuma verdade por trás, as IAs diferentes começaram a escolher a mesma letra (por exemplo, todas escolheram "C").
O que isso significa: Elas não estão concordando porque sabem a verdade. Elas estão concordando porque têm a mesma "estrutura de pensamento" (o mesmo cérebro digital). É como se todos tivessem o mesmo sotaque e, mesmo falando bobagem, falassem a mesma bobagem.

4. Quando isso funciona? (A Exceção)

O estudo diz que essa "votação em grupo" só funciona se houver um juiz externo.

Exemplo: Em matemática ou programação, se a IA gera 10 soluções diferentes, você pode rodar um código para ver qual delas funciona de verdade. O código é o "juiz".
O problema: Em assuntos como fatos históricos, opiniões ou previsões futuras, não existe esse "juiz" automático. Sem o juiz, pedir para 100 IAs opinarem só faz a opinião errada parecer mais forte e convincente.

Resumo da Ópera

O artigo conclui que concordância não é verificação.

No mundo real: Se 100 pessoas dizem que o céu é verde, isso não torna o céu verde.
Com IAs: Se 100 IAs dizem que uma informação falsa é verdadeira, isso não torna a informação verdadeira. Na verdade, quanto mais IAs você usa sem um verificador externo, mais você apenas reforça o mesmo erro, dando a ele uma aparência de autoridade.

A mensagem final: Para obter a verdade com IAs, não adianta apenas "jogar mais poder de computação" pedindo para elas pensarem mais vezes. É preciso ter alguém (ou algo) lá fora para verificar se a resposta está certa. Sem um verificador, a "sabedoria da multidão" das IAs é apenas um eco de um mesmo erro.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O artigo aborda uma questão fundamental na escalabilidade de Grandes Modelos de Linguagem (LLMs): é possível melhorar a veracidade (truthfulness) de um modelo apenas aumentando o custo computacional de inferência (inferência em tempo de execução) através de métodos de agregação de múltiplas amostras?

Contexto Atual: Em domínios com verificadores externos (como matemática e código), técnicas como Pass@k, autoconsistência e busca funcionam bem. O modelo gera várias respostas e um verificador externo filtra as incorretas.
A Questão: Em domínios sem verificadores externos (fatos gerais, raciocínio de senso comum, previsões futuras), onde não há uma "resposta correta" automática para validar, podemos confiar na "sabedoria das multidões" (agregar múltiplas opiniões do modelo ou de um conjunto de modelos) para extrair a verdade?
Hipótese Comum: Baseada na literatura de sabedoria das multidões, acredita-se que agregar muitos julgamentos imperfeitos deve cancelar erros individuais e revelar a verdade, mesmo que os indivíduos (ou modelos) estejam errados.

2. Metodologia

Os autores realizaram uma avaliação rigorosa através de cinco benchmarks e cinco modelos de linguagem instruídos (open-source), variando de 4B a 235B parâmetros (famílias Gemma, GPT-oss, Qwen).

Configuração Experimental

Benchmarks:
- Com2Sense: Raciocínio de senso comum binário.
- Humanity's Last Exam (HLE): Perguntas de nível de especialista (estrutura binária).
- BoolQ: Resposta a perguntas factuais binárias.
- Predict-the-Future: Perguntas de previsão cujos resultados ocorreram após o corte de conhecimento dos modelos (verificáveis manualmente, mas sem conhecimento prévio do modelo).
Protocolo de Amostragem: Coleta de 25 amostras independentes por modelo por pergunta, em temperaturas moderadas a altas ( $T \in \{0.7, 1.0\}$ ) para garantir diversidade superficial.
Estratégias de Agregação Testadas:
1. Votação Majoritária (Majority Vote).
2. Maior Confiança (Highest Confidence).
3. Votação Ponderada por Confiança.
4. Votação Ponderada por Popularidade Prevista.
5. Algoritmo "Surprisingly Popular" (SP) – seleciona a resposta cuja aprovação observada excede a aprovação prevista.
Controles Negativos:
- Strings Aleatórias: Modelos forçados a escolher entre A, B, C, D para sequências de caracteres ASCII aleatórios (sem nenhuma verdade subjacente). Isso testa se a correlação entre modelos é estrutural e não baseada em conhecimento compartilhado.

3. Contribuições Principais

O artigo oferece quatro contribuições teóricas e empíricas principais:

Falha Sistemática da Agregação: Demonstra que, em domínios sem verificadores, nenhuma estratégia de agregação (votação, confiança, SP) melhora consistentemente a precisão em relação a uma amostra única, mesmo com custos de inferência 25 vezes maiores.
Correlação Estrutural de Erros: Prova que os erros dos LLMs são fortemente correlacionados tanto dentro de uma mesma família de modelos quanto entre famílias diferentes. Isso viola a premissa fundamental da sabedoria das multidões (erros independentes).
Desalinhamento entre Sinais Internos e Verdade: Mostra que sinais internos como "confiança" e "popularidade prevista" rastreiam o consenso esperado (o que os outros modelos diriam), e não a correção factual.
Controle de Strings Aleatórias: Introduz um teste negativo simples onde, mesmo na ausência total de verdade (strings aleatórias), diferentes modelos exibem correlações significativas (até 0,35), provando que a correlação surge de priors compartilhados e viés indutivo, e não apenas de conhecimento factual compartilhado.

4. Resultados Chave

Agregação não Melhora a Veracidade: Em todos os benchmarks sem verificador, a precisão permaneceu plana ou degradou-se com o aumento do número de amostras. O consenso aumentou, mas a correção não.
O Caso das Previsões Futuras: No benchmark Predict-the-Future, onde os modelos não tinham conhecimento prévio, todos os métodos de agregação performaram ao nível do acaso (chance).
Correlação de Erros:
- Em domínios verificáveis (Matemática), a agregação funciona porque o verificador externo filtra as respostas erradas, não porque o consenso indica a verdade.
- Quando os modelos erram, eles tendem a convergir para a mesma resposta errada. A agregação, portanto, amplifica o erro compartilhado em vez de cancelá-lo.
Falha dos Sinais de "Surpresa" (Surprisingly Popular): O algoritmo SP falhou porque a estrutura de "minoria expert" (que sabe a verdade e prevê o erro da maioria) não existe consistentemente em populações de LLMs. Em alguns casos, o sinal de "surpresa" estava anti-correlacionado com a verdade.
Confiança vs. Acerto: A confiança auto-relatada correlaciona-se fracamente com a precisão, mas fortemente com o acordo entre modelos. Modelos confiantes frequentemente estão errados devido ao treinamento sycophantic (que recompensa respostas que soam típicas/populares).
Previsão Social vs. Verificação de Verdade: Os modelos são muito melhores em prever o que a "multidão" dirá (opinião coletiva) do que em identificar o que é verdade. Existe uma separação clara entre previsão social e verificação de verdade.

5. Significado e Conclusão

O artigo estabelece um limite fundamental para a escalabilidade de inferência em LLMs:

Domínios Verificados: Aumentar o custo computacional (mais amostras) é eficaz porque permite que um verificador externo filtre candidatos incorretos.
Domínios Não Verificados: Aumentar o custo computacional apenas gera mais amostras do mesmo "prior epistêmico" compartilhado. Isso reforça mitos e erros compartilhados, criando uma falsa sensação de segurança (alta confiança/consenso) sem aumentar a verdade.

Implicações Futuras:
A abordagem ingênua de "jogar mais computação" no problema não funcionará para melhorar a veracidade em domínios abertos. Para escalar a verdade, são necessárias:

Grounding Externo: Uso de ferramentas, recuperação de dados (RAG) ou feedback humano que atuem como verificadores.
Diversidade Epistêmica Real: Treinamento com objetivos ou dados disjuntos para quebrar a correlação de erros.
Verificadores Explícitos: Modelos treinados especificamente para verificar evidências externas, em vez de confiar em consenso interno.

Em resumo, o consenso não é uma substituição para a verificação. Sem um mecanismo externo para validar a verdade, a agregação de LLMs tende a amplificar alucinações compartilhadas em vez de corrigi-las.

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

1. O Problema: "Todos pensam igual"

2. A Ilusão da Confiança

3. O Teste do "Aleatório" (A Prova Definitiva)

4. Quando isso funciona? (A Exceção)

Resumo da Ópera

1. O Problema

2. Metodologia

Configuração Experimental

3. Contribuições Principais

4. Resultados Chave

5. Significado e Conclusão

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions