Stimulus prior and reward probability differentially affect response bias in perceptual decision making

⚕️

Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um rato em um laboratório, sentado em uma cabine com três buracos no chão. O objetivo é simples: ouvir um som e escolher o buraco certo para ganhar uma gota de água. Se você escolher o certo, ganha água; se errar, fica sem nada e tem que esperar um pouco antes de tentar de novo.

Este estudo é como uma investigação de detetive para entender como o cérebro toma decisões quando o jogo muda. Os cientistas queriam saber: o que faz o rato mudar sua estratégia? É porque um som aparece com mais frequência? Ou é porque um som dá mais recompensa?

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Jogo das Duas Variáveis: Frequência vs. Recompensa

Os pesquisadores testaram duas situações diferentes:

Cenário A (A Frequência do Som): Imagine que o "Som 1" toca 80% das vezes e o "Som 2" toca apenas 20%. O rato, sendo esperto, percebe que é mais fácil ganhar água escolhendo o buraco do "Som 1". Ele ajusta sua "bússola interna" (o critério de decisão) para favorecer essa opção.
Cenário B (A Recompensa): Agora, imagine que os sons tocam com a mesma frequência (50/50), mas o "Som 1" dá uma gota de água grande e o "Som 2" dá uma gota minúscula (ou às vezes nenhuma). O rato percebe que vale a pena focar no "Som 1" porque o prêmio é melhor.

A Grande Descoberta:
O rato muda sua estratégia muito mais rápido e drasticamente quando a recompensa muda do que quando apenas a frequência do som muda.

Analogia: Pense em dois empregos. No primeiro, você trabalha 8 horas por dia (frequência alta) mas ganha o salário mínimo. No segundo, você trabalha 4 horas (frequência média) mas ganha o triplo do salário. Se o seu chefe mudar o salário (recompensa), você vai mudar seu comportamento imediatamente. Se ele apenas mudar o horário de trabalho (frequência), você pode demorar mais para se adaptar ou não se importar tanto. O rato age como nós: o dinheiro (água) fala mais alto que a frequência.

2. O Conflito: Quando as Regras Brigam

Na terceira parte do estudo, os cientistas criaram uma situação de "guerra civil" interna para o cérebro do rato:

O "Som 1" aparecia muito frequentemente (80% das vezes).
Mas o "Som 2" dava muito mais recompensa quando acertado.

O que aconteceu?
O rato ignorou a frequência e seguiu o dinheiro. Mesmo que o "Som 1" fosse o mais comum, o rato escolheu o "Som 2" porque a recompensa era maior.

Analogia: Imagine que você está dirigindo. A maioria dos carros na estrada (frequência) está indo para a esquerda. Mas você sabe que, se for para a direita, há um atalho que te leva para casa em 10 minutos (recompensa), enquanto a esquerda leva 1 hora. Mesmo que a maioria vá para a esquerda, você vai para a direita. O cérebro do rato priorizou o "atalho" (recompensa) em vez de seguir a "multidão" (frequência).

3. Os Modelos Computacionais: Tentando Copiar o Cérebro

Os cientistas usaram três "robôs" (modelos matemáticos) para tentar prever o comportamento dos ratos:

O Robô da Detecção (KDB): Acredita que o rato apenas ajusta uma régua mental baseada no que aconteceu na última vez.
O Robô da Lei (DT): Acredita que o rato segue uma regra matemática de equilíbrio entre esforço e recompensa.
O Robô de Aprendizado (RL): Acredita que o rato aprende como um aluno, guardando valores para cada ação.

O Problema:
Nenhum desses robôs conseguiu prever perfeitamente o comportamento do rato quando as regras de frequência e recompensa brigavam (Cenário 3).

Por que? Porque os robôs não "sabiam" que o rato estava prestando atenção em qual som estava tocando, apenas no resultado. Eles achavam que o rato era um pouco burro, apenas reagindo ao prêmio. Mas o rato é inteligente: ele sabe que o prêmio depende de qual som ele ouviu.
Conclusão: Para criar um robô que pense como um rato, precisamos ensinar a ele não apenas a contar prêmios, mas também a lembrar da "história" dos sons (as probabilidades).

4. A Densidade de Recompensa: O "Nível de Fome"

Os cientistas também testaram se a quantidade total de água disponível no dia (se o rato ganhava água em 100% dos acertos ou apenas em 25%) mudava a velocidade de aprendizado.

Resultado: Não mudou nada.
Analogia: Se você está em um restaurante onde a comida é sempre boa, não importa se o garçom traz o prato rápido ou devagar, você continua comendo. O rato não acelerou nem desacelerou sua decisão apenas porque a "taxa de sucesso" geral mudou. O que importa é a diferença entre as opções, não o total de água no dia.

Resumo Final

Este estudo nos ensina que, ao tomar decisões, não somos apenas máquinas que seguem a maioria (frequência) ou apenas máquinas que correm atrás do prêmio (recompensa). Somos uma mistura complexa:

A recompensa é o rei: Mudanças no prêmio afetam nossa decisão muito mais do que mudanças na frequência dos eventos.
O cérebro é inteligente: Nós (e os ratos) conseguimos separar "o que é comum" de "o que é valioso".
Aprendizado é complexo: Os modelos atuais de inteligência artificial e psicologia ainda não conseguem simular perfeitamente essa habilidade de misturar "o que eu vi" com "o que eu ganhei". Precisamos de modelos que lembrem não apenas do resultado, mas da história completa do que aconteceu antes.

Em suma: O cérebro não é apenas um contador de prêmios; é um estrategista que entende o contexto.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Efeitos Diferenciais de Probabilidade de Estímulo e Probabilidade de Recompensa no Viés de Resposta

1. Problema e Contexto

A Teoria da Detecção de Sinal (SDT) é o modelo padrão para analisar decisões perceptuais, assumindo que os sujeitos comparam amostras de evidência sensorial a um critério de decisão estático. Embora a sensibilidade ( $d'$ ) seja bem compreendida, a natureza do critério de decisão é menos clara. Evidências anteriores sugerem que o critério não é estático, mas flutua trial-a-trial e é influenciado por manipulações experimentais, como probabilidades desiguais de apresentação de estímulos (SPP) e probabilidades desiguais de recompensa (RP).

O problema central deste estudo é que os mecanismos que governam essas mudanças de critério trial-a-trial não são bem compreendidos. Especificamente, não está claro se as manipulações de probabilidade de estímulo (SPP) e probabilidade de recompensa (RP) afetam o aprendizado do critério da mesma maneira, e se a densidade de recompensa (taxa global de recompensa) influencia a velocidade desse aprendizado. Além disso, modelos existentes focam frequentemente no estado estacionário e falham em capturar a adaptação dinâmica trial-a-trial ou as interações complexas entre esses fatores.

2. Metodologia

O estudo envolveu cinco experimentos conduzidos com 9 ratos em uma tarefa de discriminação auditiva de dois estímulos e duas escolhas (S1 vs. S2; Resposta R1 vs. R2).

Tarefa: Os ratos deveriam identificar qual de dois acordes sonoros foi apresentado e responder tocando em uma das duas portas laterais. Acertos eram recompensados com água; erros ou falta de resposta resultavam em time-out.
Manipulações Experimentais:
- Experimentos 1 e 2: Variaram isoladamente as razões de apresentação de estímulos (SPP) e as razões de recompensa (RP), mantendo o outro fator constante.
- Experimento 3: Colocou SPP e RP em oposição direta (ex: S1 mais frequente, mas R2 mais recompensado) para testar qual fator dominava o viés.
- Experimentos 4 e 5: Investigaram o efeito da densidade de recompensa (taxa global de recompensa, variando de 0.25 a 1.0) e sua interação com razões de recompensa assimétricas.
Análise de Dados e Modelagem:
- Análise Comportamental: Uso de um modelo de "um critério por sessão" (OCPS) para extrair o critério de decisão de SDT a partir dos dados brutos, removendo a confusão causada pelas probabilidades de estímulo.
- Ajuste de Leis: Ajuste da Lei de Davison-Tustin (DT) aos dados de estado estacionário.
- Modelos Trial-a-Trial: Comparação de três modelos computacionais ajustados aos dados:
  1. Modelo KDB Modificado: Baseado em Kac, Dorfman e Biderman. Assume um critério que se atualiza por passos fixos após recompensas, com um termo de "vazamento" (leak) para evitar deriva infinita.
  2. Modelo DT (Dinâmico): Extensão da Lei de Davison-Tustin para nível trial-a-trial, onde o tamanho do passo de atualização depende da posição atual do critério.
  3. Modelo de Aprendizado por Reforço (RL): Baseado em Lak et al. (2020b), onde o animal mantém valores de ação ( $V$ ) atualizados por erro de previsão de recompensa, combinados com a confiança sensorial.
- Critérios de Comparação: Log-verossimilhança negativa (NLL) e Critério de Informação Bayesiano (BIC) para avaliar o ajuste e a capacidade generativa dos modelos.

3. Principais Contribuições e Resultados

A. Efeito Diferencial de SPP vs. RP (Experimentos 1, 2 e 3)

Viés Comportamental: As manipulações de probabilidade de recompensa (RP) produziram um viés de resposta significativamente mais forte e rápido do que as manipulações de probabilidade de estímulo (SPP).
Parâmetros de Aprendizado: Em todos os três modelos, as taxas de aprendizado (representadas por $\Delta$ no KDB, $\Delta_{max}$ no DT e $\alpha$ no RL) foram mais de 10 vezes maiores quando as razões de recompensa eram manipuladas (Exp 2) em comparação com as razões de estímulo (Exp 1).
Falha dos Modelos no Experimento 3: Quando SPP e RP foram manipulados simultaneamente em direções opostas, nenhum dos três modelos conseguiu reproduzir o comportamento dos ratos. Os modelos previam um critério neutro (ou baseado apenas na razão combinada), enquanto os ratos exibiram um viés forte em direção à opção com maior probabilidade de recompensa, ignorando parcialmente a probabilidade de ocorrência do estímulo.
Conclusão Parcial: Os sujeitos não tratam SPP e RP de forma equivalente; eles parecem representar explicitamente as probabilidades de recompensa ou distribuições de estímulos de uma forma que os modelos atuais não capturam.

B. Efeito da Densidade de Recompensa (Experimentos 4 e 5)

Ausência de Efeito Sistemático: A variação na densidade global de recompensa (taxa média de recompensa) não afetou consistentemente a velocidade de aprendizado (taxa de aprendizado) dos ratos.
Modelagem: Embora versões dos modelos com múltiplas taxas de aprendizado (uma por condição) tenham melhorado o ajuste estatístico (menor BIC), os valores das taxas de aprendizado ajustadas não mostraram nenhuma correlação sistemática com a densidade de recompensa (alta vs. baixa). Isso sugere que a densidade de recompensa não é o fator determinante para a velocidade de adaptação do critério neste contexto.

C. Limitações dos Modelos Atuais

O modelo de Aprendizado por Reforço (RL) falhou em capturar a adaptação lenta e gradual observada quando as probabilidades de estímulo mudavam, convergindo muito rápido para o estado estacionário.
Os modelos KDB e DT, embora bons em prever estados estacionários, falharam em Experimento 3 porque assumem que o critério de equilíbrio depende apenas do produto $\pi \cdot \rho$ (probabilidade de estímulo $\times$ probabilidade de recompensa), não conseguindo explicar o viés dominante da recompensa quando os fatores entram em conflito.

4. Significado e Conclusões

O estudo demonstra que a probabilidade de recompensa e a probabilidade de estímulo (priori) afetam o viés de decisão de maneira diferencial e não linear.

Representação Explícita: Os sujeitos (ratos) parecem representar explicitamente as probabilidades de recompensa ou distribuições completas de estímulos, ajustando seu critério de decisão de forma muito mais sensível a mudanças na recompensa do que na frequência do estímulo.
Falha dos Modelos Clássicos: Modelos que assumem que o critério é ajustado apenas com base em taxas de recompensa resposta-contingentes (independentes do estímulo) são insuficientes. A interação entre o estímulo percebido e a recompensa esperada é crucial.
Direções Futuras: Modelos futuros de aprendizado de critério devem incorporar mecanismos para representar e atualizar priors de estímulo ou distribuições de estímulos dinamicamente. A simples suposição de que o animal conhece a distribuição a priori (como feito no modelo RL padrão) é inadequada quando essas distribuições mudam experimentalmente.

Em suma, a decisão perceptual não é apenas uma função da sensibilidade sensorial e de um critério estático, mas envolve um processo de aprendizado complexo onde a recompensa tem um peso muito maior do que a frequência de ocorrência do estímulo na formação do viés de resposta, desafiando as premissas atuais da Teoria da Detecção de Sinal e de modelos de aprendizado por reforço padrão.

Stimulus prior and reward probability differentially affect response bias in perceptual decision making

1. O Jogo das Duas Variáveis: Frequência vs. Recompensa

2. O Conflito: Quando as Regras Brigam

3. Os Modelos Computacionais: Tentando Copiar o Cérebro

4. A Densidade de Recompensa: O "Nível de Fome"

Resumo Final

Resumo Técnico: Efeitos Diferenciais de Probabilidade de Estímulo e Probabilidade de Recompensa no Viés de Resposta

1. Problema e Contexto

2. Metodologia

3. Principais Contribuições e Resultados

4. Significado e Conclusões

Mais como este

Acoustic markers of negative arousal in lambs: evidence from behavioural and eye thermal profiles

TRACE: End-to-end temporal inference and annotation of animal behaviors from video

Adolescent social isolation creates a latent vulnerability in maternal care with intergenerational social consequences, rescued by experienced mothers

A hierarchy of locomotion costs shapes optimal foraging strategy

Ontogeny of settlement behaviours in response to Grammatophora marina diatom biofilms in the marine polychaete, Platynereis dumerilii