Stimulus prior and reward probability differentially affect response bias in perceptual decision making

Este estudo com ratos demonstra que a probabilidade de recompensa influencia o viés de resposta na tomada de decisão perceptiva de forma mais pronunciada do que a probabilidade do estímulo, devido a taxas de aprendizado significativamente mais altas, revelando que os modelos atuais são insuficientes para capturar esses efeitos e sugerindo que os sujeitos representam explicitamente as probabilidades ou distribuições dos estímulos.

Koss, C., Blanke, J.-H., de la Cuesta-Ferrer, L., Jakel, F., Stuttgen, M. C.

Publicado 2026-02-17
📖 5 min de leitura🧠 Leitura aprofundada
⚕️

Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um rato em um laboratório, sentado em uma cabine com três buracos no chão. O objetivo é simples: ouvir um som e escolher o buraco certo para ganhar uma gota de água. Se você escolher o certo, ganha água; se errar, fica sem nada e tem que esperar um pouco antes de tentar de novo.

Este estudo é como uma investigação de detetive para entender como o cérebro toma decisões quando o jogo muda. Os cientistas queriam saber: o que faz o rato mudar sua estratégia? É porque um som aparece com mais frequência? Ou é porque um som dá mais recompensa?

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Jogo das Duas Variáveis: Frequência vs. Recompensa

Os pesquisadores testaram duas situações diferentes:

  • Cenário A (A Frequência do Som): Imagine que o "Som 1" toca 80% das vezes e o "Som 2" toca apenas 20%. O rato, sendo esperto, percebe que é mais fácil ganhar água escolhendo o buraco do "Som 1". Ele ajusta sua "bússola interna" (o critério de decisão) para favorecer essa opção.
  • Cenário B (A Recompensa): Agora, imagine que os sons tocam com a mesma frequência (50/50), mas o "Som 1" dá uma gota de água grande e o "Som 2" dá uma gota minúscula (ou às vezes nenhuma). O rato percebe que vale a pena focar no "Som 1" porque o prêmio é melhor.

A Grande Descoberta:
O rato muda sua estratégia muito mais rápido e drasticamente quando a recompensa muda do que quando apenas a frequência do som muda.

  • Analogia: Pense em dois empregos. No primeiro, você trabalha 8 horas por dia (frequência alta) mas ganha o salário mínimo. No segundo, você trabalha 4 horas (frequência média) mas ganha o triplo do salário. Se o seu chefe mudar o salário (recompensa), você vai mudar seu comportamento imediatamente. Se ele apenas mudar o horário de trabalho (frequência), você pode demorar mais para se adaptar ou não se importar tanto. O rato age como nós: o dinheiro (água) fala mais alto que a frequência.

2. O Conflito: Quando as Regras Brigam

Na terceira parte do estudo, os cientistas criaram uma situação de "guerra civil" interna para o cérebro do rato:

  • O "Som 1" aparecia muito frequentemente (80% das vezes).
  • Mas o "Som 2" dava muito mais recompensa quando acertado.

O que aconteceu?
O rato ignorou a frequência e seguiu o dinheiro. Mesmo que o "Som 1" fosse o mais comum, o rato escolheu o "Som 2" porque a recompensa era maior.

  • Analogia: Imagine que você está dirigindo. A maioria dos carros na estrada (frequência) está indo para a esquerda. Mas você sabe que, se for para a direita, há um atalho que te leva para casa em 10 minutos (recompensa), enquanto a esquerda leva 1 hora. Mesmo que a maioria vá para a esquerda, você vai para a direita. O cérebro do rato priorizou o "atalho" (recompensa) em vez de seguir a "multidão" (frequência).

3. Os Modelos Computacionais: Tentando Copiar o Cérebro

Os cientistas usaram três "robôs" (modelos matemáticos) para tentar prever o comportamento dos ratos:

  1. O Robô da Detecção (KDB): Acredita que o rato apenas ajusta uma régua mental baseada no que aconteceu na última vez.
  2. O Robô da Lei (DT): Acredita que o rato segue uma regra matemática de equilíbrio entre esforço e recompensa.
  3. O Robô de Aprendizado (RL): Acredita que o rato aprende como um aluno, guardando valores para cada ação.

O Problema:
Nenhum desses robôs conseguiu prever perfeitamente o comportamento do rato quando as regras de frequência e recompensa brigavam (Cenário 3).

  • Por que? Porque os robôs não "sabiam" que o rato estava prestando atenção em qual som estava tocando, apenas no resultado. Eles achavam que o rato era um pouco burro, apenas reagindo ao prêmio. Mas o rato é inteligente: ele sabe que o prêmio depende de qual som ele ouviu.
  • Conclusão: Para criar um robô que pense como um rato, precisamos ensinar a ele não apenas a contar prêmios, mas também a lembrar da "história" dos sons (as probabilidades).

4. A Densidade de Recompensa: O "Nível de Fome"

Os cientistas também testaram se a quantidade total de água disponível no dia (se o rato ganhava água em 100% dos acertos ou apenas em 25%) mudava a velocidade de aprendizado.

  • Resultado: Não mudou nada.
  • Analogia: Se você está em um restaurante onde a comida é sempre boa, não importa se o garçom traz o prato rápido ou devagar, você continua comendo. O rato não acelerou nem desacelerou sua decisão apenas porque a "taxa de sucesso" geral mudou. O que importa é a diferença entre as opções, não o total de água no dia.

Resumo Final

Este estudo nos ensina que, ao tomar decisões, não somos apenas máquinas que seguem a maioria (frequência) ou apenas máquinas que correm atrás do prêmio (recompensa). Somos uma mistura complexa:

  1. A recompensa é o rei: Mudanças no prêmio afetam nossa decisão muito mais do que mudanças na frequência dos eventos.
  2. O cérebro é inteligente: Nós (e os ratos) conseguimos separar "o que é comum" de "o que é valioso".
  3. Aprendizado é complexo: Os modelos atuais de inteligência artificial e psicologia ainda não conseguem simular perfeitamente essa habilidade de misturar "o que eu vi" com "o que eu ganhei". Precisamos de modelos que lembrem não apenas do resultado, mas da história completa do que aconteceu antes.

Em suma: O cérebro não é apenas um contador de prêmios; é um estrategista que entende o contexto.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →