Asymmetric Reinforcement Learning Explains Human Choice Patterns in Decision-making Under Risk

Este estudo demonstra que um modelo de aprendizado por reforço sensível ao risco, que utiliza taxas de aprendizado assimétricas para diferenciar recompensas e perdas, explica melhor os padrões de escolha humana e o tempo de resposta em tarefas de tomada de decisão sob risco do que modelos de atualização simétrica.

Autores originais: Shahdoust, N., Cowan, R. L., Price, T. A., Davis, T. S., Liu, A., Rabinovich, R., Zarr, V., Libowitz, M. R., Shofty, B., Rahimpour, S., Borisyuk, A., Smith, E. H.

Publicado 2026-03-11
📖 4 min de leitura☕ Leitura rápida
⚕️

Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está jogando um jogo de cartas contra um oponente invisível. Você recebe uma carta e precisa adivinhar se a carta dele é maior ou menor que a sua. Se acertar, ganha dinheiro; se errar, perde. O objetivo do jogo é aprender, com o tempo, a fazer as melhores escolhas possíveis.

Este estudo científico é como um "detetive de decisões". Os pesquisadores queriam descobrir como o nosso cérebro aprende com os erros e acertos quando o futuro é incerto. Será que aprendemos da mesma forma com uma vitória e com uma derrota? Ou será que damos mais peso a um deles?

Aqui está a explicação do que eles descobriram, usando analogias simples:

1. O Grande Debate: O Cérebro é Equilibrado ou Tendencioso?

Antes desse estudo, os cientistas debatiam duas teorias:

  • A Teoria do "Espelho Perfeito" (Aprendizado Simétrico): O cérebro aprende da mesma forma com um "ponto" (vitória) e com um "menos" (derrota). Se você ganha R$ 0,50, seu cérebro atualiza sua estratégia da mesma maneira que se você perdesse R$ 0,50. É como se o cérebro fosse uma balança perfeitamente equilibrada.
  • A Teoria do "Sistema de Alerta" (Aprendizado Assimétrico): O cérebro é tendencioso. Ele pode aprender muito rápido com uma vitória, mas ignorar uma derrota, ou vice-versa. É como se o cérebro tivesse um "botão de pânico" para perdas e um "botão de celebração" para ganhos, e esses botões não funcionam na mesma velocidade.

2. O Experimento: O Jogo das Cartas "Starling"

Os pesquisadores criaram um jogo chamado "Starling" (como um pássaro que voa em bando, mudando de direção rápido).

  • O Cenário: Eles criaram três tipos de "baralhos" (decks):
    1. Baralho Justo: Todas as cartas (de 1 a 9) aparecem com a mesma frequência.
    2. Baralho "Baixo": Cartas pequenas (1, 2, 3) aparecem muito mais.
    3. Baralho "Alto": Cartas grandes (7, 8, 9) aparecem muito mais.
  • A Pegadinha: No início, o jogador ficava em um baralho só (para aprender as regras). Depois, o jogo misturava tudo: às vezes era o baralho baixo, às vezes o alto, e o jogador tinha que perceber a mudança rapidamente.

3. A Descoberta: O Cérebro é um "Otimista Cético"

Os pesquisadores testaram 5 modelos de computador (cérebros artificiais) para ver qual deles imitava melhor as pessoas reais.

  • O Vencedor: O modelo que melhor explicou o comportamento humano foi o Modelo Sensível ao Risco (RS).
  • O Que Isso Significa? O cérebro humano não é uma balança perfeita. Ele aprende de forma assimétrica.
    • Imagine que você está dirigindo. Se você passa num sinal verde (vitória), você continua dirigindo. Se você quase bate (derrota), você freia bruscamente e muda seu comportamento imediatamente.
    • No estudo, descobriu-se que as pessoas tendem a atualizar suas expectativas de forma diferente dependendo se o resultado foi bom ou ruim. Elas não tratam o "ganho" e a "perda" como moedas de valor idêntico na mente. O modelo que permitia essa diferença (aprender mais rápido ou mais devagar com perdas do que com ganhos) foi o único que conseguiu prever exatamente o que as pessoas fariam e quão rápido elas decidiriam.

4. A Analogia do "GPS de Decisão"

Pense no seu cérebro como um GPS de carro:

  • Modelos Antigos (Simétricos): O GPS dizia: "Você errou a rua, recalcule a rota. Você acertou a rua, continue assim". Ele tratava o erro e o acerto com o mesmo peso.
  • O Modelo Vencedor (Assimétrico): O GPS percebeu que, quando você quase bate (erro), ele precisa gritar e mudar a rota imediatamente. Mas quando você acerta, ele apenas sussurra "ok, continue".
  • Resultado: O modelo assimétrico foi o único que conseguiu prever não apenas para onde as pessoas iriam, mas também quão rápido elas virariam o volante. Quando a diferença entre as opções era clara, elas decidiam rápido. Quando era confuso, elas demoravam. O modelo "assimétrico" captou essa nuance perfeitamente.

5. Por que isso importa?

  • Para a Saúde Mental: Pessoas com vícios (como jogo de azar ou drogas) muitas vezes têm um "GPS" quebrado. Elas podem ignorar completamente as perdas (aprendem muito pouco com o erro) e focar apenas nas vitórias. Entender que o aprendizado é assimétrico ajuda a criar tratamentos melhores.
  • Para o Dia a Dia: Isso explica por que, às vezes, somos muito otimistas ou muito pessimistas. Não somos máquinas frias; nosso cérebro dá pesos diferentes às experiências boas e ruins para nos proteger ou nos motivar.

Em resumo: O estudo provou que, ao tomar decisões arriscadas, nosso cérebro não é um matemático imparcial que soma e subtrai igualmente. Ele é um estrategista que dá pesos diferentes a vitórias e derrotas, e é essa "tendência" que nos faz humanos e nos ajuda a navegar em um mundo incerto.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →