Humans use a dual policy to improve inferences… — Explicação em linguagem simples

Autores originais: Cao, Y., Almeras, C., Lee, J. K., Maye, I., Wyart, V.

Publicado 2026-02-16

📖 4 min de leitura☕ Leitura rápida

Autores originais: Cao, Y., Almeras, C., Lee, J. K., Maye, I., Wyart, V.

Artigo original sob licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

O Segredo de Como Aprendemos: Entre "Testar e Repetir" e "Explorar o Desconhecido"

Imagine que você está em um shopping com duas máquinas de venda automática (vending machines) novas. Você não sabe o que tem dentro de cada uma. O objetivo do estudo foi descobrir como as pessoas aprendem sobre essas máquinas quando não há dinheiro envolvido, apenas a curiosidade de saber o que tem lá dentro.

Os pesquisadores (Yinan Cao, Clémence Alméras e colegas) descobriram que o cérebro humano usa uma estratégia de "dupla política" muito interessante para aprender coisas novas, uma estratégia que computadores (redes neurais) ainda não conseguem imitar sozinhos.

1. O Cenário: Curiosidade vs. Ganância

O estudo comparou duas situações:

A Situação "Ganância" (MATCH): Você precisa escolher a máquina que dá o melhor doce (recompensa). Aqui, você quer ganhar o máximo possível.
A Situação "Curiosidade" (GUESS): Você não ganha nada comendo os doces. O objetivo é apenas descobrir qual máquina tem mais doces azuis e qual tem mais laranjas. É puro aprendizado.

2. A Grande Descoberta: O Efeito "Estilo de Vida" (Streaking)

Quando as pessoas estavam apenas tentando aprender (Situação de Curiosidade), elas não agiam como robôs lógicos que alternam perfeitamente entre as opções para testar tudo. Em vez disso, elas faziam algo que os autores chamaram de "Streaking" (ou "Fazer uma Série").

A Analogia do Detetive:
Imagine que você é um detetive investigando dois suspeitos.

O Robô Lógico: Interroga o Suspeito A uma vez, depois o Suspeito B uma vez, depois o A de novo, tentando equilibrar tudo.
O Humano (Streaking): O humano pega o Suspeito A e o interroga cinco vezes seguidas ("AAAAA"). Só depois, quando já tem uma "certeza" sobre ele, ele muda para o Suspeito B e faz o mesmo ("BBBBB").

Isso parece estranho e ineficiente (subótimo), certo? Por que não alternar?
A resposta é: Porque nosso cérebro é barulhento. Nossas memórias e raciocínios não são perfeitos; eles têm "ruído". Se você alternar muito rápido, as informações se misturam e você se confunde. Ao focar em uma coisa de cada vez (fazer uma "série"), você limpa o ruído e constrói uma certeza sólida antes de mudar de ideia. É como tentar ouvir uma música fraca: você foca em um instrumento de cada vez para entendê-lo, em vez de tentar ouvir a orquestra inteira ao mesmo tempo.

3. A Dupla Estratégia Humana

O estudo mostrou que os humanos usam duas fases:

Fase Local (O "Streaking"): Primeiro, você "trava" em uma opção e testa ela repetidamente para ter certeza de que entendeu o básico. É como tentar abrir uma porta emperrada: você empurra várias vezes no mesmo lugar antes de tentar a outra porta.
Fase Global (Exploração Guiada pela Incerteza): Depois de ter essa certeza inicial, você começa a alternar para a opção que você sabe menos sobre, para preencher as lacunas do seu conhecimento.

Essa combinação de "focar no que já sei" e "explorar o que não sei" faz com que os humanos sejam melhores em aprender do que se fizessem apenas uma coisa ou a outra.

4. O Que os Computadores Não Entendem

Os pesquisadores treinaram redes neurais artificiais (IA) para fazer a mesma tarefa.

As IAs aprenderam a explorar o desconhecido (a fase global) muito bem.
Mas nenhuma IA aprendeu a fazer o "Streaking" (ficar repetindo a mesma escolha no início). Elas tentaram alternar logicamente desde o primeiro segundo.

A Lição: O "Streaking" não é um erro; é um superpoder humano. É uma adaptação para lidar com o fato de que nosso cérebro tem limitações e "falhas" (ruído). A IA, sendo perfeita e sem "ruído", não precisa dessa estratégia. Nós, humanos, precisamos desse "travar" para organizar nossos pensamentos.

5. Personalidade e Aprendizado

O estudo também olhou para as diferenças entre as pessoas:

Quem precisa de respostas rápidas (Alta "Necessidade de Fechamento Cognitivo"): Tendem a fazer menos "Streaking". Eles querem saber a resposta logo, então pulam a fase de teste repetitivo. Isso, ironicamente, faz com que aprendam menos e se confundam mais.
Quem tem maior capacidade de raciocínio: Tendem a usar melhor a estratégia de explorar o que não sabem (a fase global).

Resumo Final

Este estudo nos ensina que, quando estamos aprendendo algo novo e não temos recompensas imediatas (como dinheiro), nosso cérebro adora focar em uma coisa de cada vez e repeti-la antes de mudar.

Não é preguiça ou teimosia; é uma estratégia inteligente para compensar as falhas da nossa memória. Enquanto os computadores tentam ser lógicos e alternados, nós humanos somos "detetives teimosos" que precisam de tempo e repetição para entender o mundo. E, no fim das contas, essa "teimosia" nos torna melhores aprendizes em um mundo confuso.

Título: Humanos utilizam uma política dual para melhorar inferências durante a busca de informação epistêmica

1. Problema e Contexto

A tomada de decisão humana frequentemente envolve o dilema "explorar-explorar" (explore–exploit), onde indivíduos devem equilibrar a segurança do conhecido com a busca pelo desconhecido. A literatura tradicional foca na exploração como um trade-off para maximizar recompensas futuras (valoração prospectiva). No entanto, muitas atividades cotidianas (como aprender uma nova língua ou explorar uma cidade) são epistêmicas: o objetivo é adquirir conhecimento estrutural sobre o ambiente, independentemente de recompensas imediatas ou futuras.

O problema central investigado é: Como os seres humanos buscam informação puramente epistêmica (sem valor de recompensa) e quais são as políticas cognitivas subjacentes? A hipótese é que, ao remover a valoração prospectiva de recompensa, os mecanismos de busca de informação podem revelar estratégias distintas das observadas em tarefas de recompensa clássicas.

2. Metodologia

Os autores conduziram três estudos (total de N = 702 participantes, com 420 incluídos nas análises principais) utilizando uma tarefa de amostragem sequencial.

Paradigma Experimental:
- Tarefa: Os participantes amostravam "pedras" (gemas) de duas "bolsas" distintas. Cada bolsa continha pedras de uma forma específica (ex: triângulos vs. pentágonos) e uma distribuição de cores (predominantemente azul ou laranja, com ruído de ~1/3).
- Condição MATCH (Recompensa): Os participantes deviam coletar pedras que correspondessem a uma cor-alvo (ex: azul). O objetivo era maximizar a recompensa imediata (número de acertos).
- Condição GUESS (Epistêmica): Não havia cor-alvo. Os participantes deviam amostrar para aprender a distribuição de cores de cada bolsa. Ao final da sequência (8 a 20 tentativas), eles deviam adivinhar a cor dominante de uma das bolsas. A performance era avaliada apenas pela precisão da inferência final, sem recompensa durante a amostragem.
Modelagem Computacional:
- Desenvolvimento de um modelo de acumulação de evidência subótima com ruído e vazamento (leaky integration).
- O modelo incluía parâmetros para: sensibilidade à incerteza ( $\beta_c$ ), sensibilidade à recompensa ( $\beta_v$ ), viés de repetição geral ( $\beta_r$ ), e um mecanismo de "streaking" (riscar/sequência): uma fase inicial onde o agente repete a mesma escolha até que a evidência acumulada cruze um limiar de confiança ( $\theta$ ).
- Redes Neurais Recorrentes (RNNs): Treinadas com objetivos de maximização de recompensa (MATCH) e previsão de estados ocultos (GUESS), incluindo uma política meta-cognitiva para reduzir incerteza, para servir como benchmark computacional.
Medidas Individuais: Avaliação de traços psicológicos (Necessidade de Fechamento Cognitivo - NFCS) e capacidade cognitiva geral (ICAR).

3. Principais Resultados

A. Comportamento Humano: Uma Política Dual

Condição MATCH: Os participantes adotaram uma política de amostragem guiada por recompensa, convergindo rapidamente para a opção mais provável de ser a cor-alvo.
Condição GUESS: Os participantes exibiram uma política dual:
1. Streaking (Estágio Inicial): Nos primeiros ensaios, os participantes tendiam a amostrar repetidamente a mesma opção (ex: AAAAABBBBB) antes de alternar. Isso foi interpretado como um teste de hipóteses provisórias para estabelecer uma certeza satisfatória sobre cada opção individualmente.
2. Exploração Guiada pela Incerteza (Estágio Posterior): Após o período de "streaking", os participantes alternaram para uma estratégia de explorar a opção mais incerta (menor evidência acumulada), otimizando a informação global.
Desempenho: O "streaking" inicial, embora estatisticamente subótimo em um modelo ideal, correlacionou-se com maior precisão de inferência final na condição GUESS.

B. Modelagem e Simulações

O modelo computacional capturou com precisão o comportamento humano, mostrando que o "streaking" é um mecanismo local baseado em limiares, distinto da política global guiada pela incerteza.
Análise de Ruído: Simulações de "knockout" (remoção de parâmetros) revelaram que o ruído de aprendizado (imprecisão na atualização de crenças) é o principal fator que torna o "streaking" benéfico. Em ambientes com ruído neural, focar em uma opção por vez estabiliza a crença e reduz a diluição de atualizações, melhorando a inferência final.
Redes Neurais (RNNs):
- As RNNs treinadas para maximizar a precisão de inferência (GUESS) aprenderam a exploração guiada pela incerteza, mas falharam em adquirir o comportamento de "streaking".
- Isso sugere que o "streaking" não é uma consequência natural da otimização de tarefas em arquiteturas padrão, mas sim uma estratégia distintamente humana moldada por restrições cognitivas (como ruído e custo de troca de atenção).

C. Diferenças Individuais e Traços Psicológicos

Dissociação de Traços:
- A tendência ao "streaking" (medida por $EoS$) foi negativamente correlacionada com a Necessidade de Fechamento Cognitivo (NFCS). Indivíduos com menor necessidade de fechamento (mais tolerantes à ambiguidade) tendiam a realizar mais "streaking" estruturado.
- A sensibilidade à incerteza ( $\beta_c$ ) foi positivamente correlacionada com a Capacidade Cognitiva Geral (ICAR).
Impacto no Desempenho: O "streaking" e a exploração guiada pela incerteza co-ocorriam nos mesmos indivíduos e ambos contribuíam independentemente para uma maior precisão de decisão. O "streaking" atuou como um mecanismo compensatório para o ruído de aprendizado.

4. Contribuições Chave

Descoberta da Política Dual: Identificação de que a busca de informação epistêmica envolve uma fase local de "streaking" (teste de hipóteses sequencial) seguida por uma fase global de exploração guiada pela incerteza.
Adaptatividade do Subótimo: Demonstração de que uma estratégia localmente subótima ("streaking") é adaptativa e melhora a precisão de inferência na presença de ruído neural, reconciliando a subotimalidade humana com a eficiência funcional.
Dissociação Humano-IA: Evidência de que redes neurais artificiais, mesmo otimizadas para inferência, não desenvolvem espontaneamente o "streaking", destacando que essa estratégia é um fenômeno específico da cognição humana, possivelmente ligado a restrições de memória de trabalho e custo de troca de foco.
Mapeamento de Traços: Estabelecimento de uma arquitetura em camadas onde traços de personalidade (NFCS) e capacidade cognitiva (ICAR) mapeiam para processos computacionais latentes distintos (política local vs. política global).

5. Significado e Conclusão

O estudo redefine a compreensão da exploração humana, mostrando que ela não é apenas um trade-off entre recompensa e informação, mas envolve estratégias estruturadas de amostragem quando a valoração prospectiva é removida. O "streaking" revela como o cérebro humano compensa o ruído inerente ao processamento neural, utilizando repetições locais para estabilizar crenças antes de realizar uma exploração global eficiente.

Esses achados sugerem que a inteligência humana não reside apenas na otimização global (como em modelos de agente ideal), mas na combinação de políticas globais quase ótimas com heurísticas locais robustas (como o "streaking") que são moldadas por traços psicológicos e limitações computacionais. Isso oferece uma nova perspectiva para entender a variabilidade individual na tomada de decisão e o design de sistemas de IA mais robustos e adaptativos.

Humans use a dual policy to improve inferences during epistemic information seeking