Evolution of cooperation with Q-learning: the impact of information perception

Este estudo utiliza Q-learning em uma estrutura de Dilema do Prisioneiro para demonstrar que a variação nas estruturas de percepção de informação, particularmente a informação assimétrica, molda criticamente a complexa dinâmica evolutiva e a emergência da cooperação, oferecendo novos insights sobre o comportamento cooperativo humano.

Autores originais: Guozhong Zheng, Zhenwei Ding, Jiqiang Zhang, Shengfeng Deng, Weiran Cai, Li Chen

Publicado 2026-02-04
📖 5 min de leitura🧠 Leitura aprofundada

Autores originais: Guozhong Zheng, Zhenwei Ding, Jiqiang Zhang, Shengfeng Deng, Weiran Cai, Li Chen

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ⚕️ Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Imagine que você e um amigo estão jogando um jogo onde ambos têm que decidir se serão legais (Cooperar) ou se vão cuidar de si mesmos às custas do outro (Defeitar). Este é o clássico "Dilema do Prisioneiro". Se ambos forem legais, ambos ganham um pouco. Se ambos cuidarem de si mesmos, ambos perdem um pouco. Mas se um for legal e o outro não, o "legal" é esmagado, e o "egoísta" recebe uma recompensa enorme.

Geralmente, os cientistas que estudam este jogo assumem que ambos os jogadores veem o mundo exatamente da mesma forma. Ambos sabem o que o outro fez da última vez, ou ambos conhecem apenas o que eles próprios fizeram.

Este artigo faz uma pergunta diferente: O que acontece se os dois jogadores virem o jogo de formas diferentes? E se um jogador estiver observando as jogadas do amigo, enquanto o outro jogador está apenas observando a si mesmo?

Os pesquisadores usaram um algoritmo de computador chamado "Q-learning" (pense nele como um estudante digital que aprende por tentativa e erro, mantendo uma pontuação mental do que funciona e do que não funciona) para simular isso. Eles testaram três configurações de "visão":

  1. A Equipe "Você e Você" (Observando o Outro): Ambos os jogadores observam apenas o que o outro está fazendo.
  2. A Equipe "Eu e Eu" (Observando a Si Mesmo): Ambos os jogadores observam apenas o que eles mesmos fizeram.
  3. A Equipe "Você e Eu" (Assimétrica): Um jogador observa o outro, enquanto o outro observa apenas a si mesmo.

Aqui está o que eles descobriram, explicado de forma simples:

1. A Equipe "Você e Você" (Observando o Outro)

Quando ambos os jogadores estão focados apenas no que o outro está fazendo, o jogo é uma bagunça. É como duas pessoas tentando dançar enquanto olham apenas para os pés uma da outra; elas não conseguem encontrar um ritmo. Elas ficam alternando entre ser legais e ser malvadas, mas nunca se estabelecem em um padrão estável de cooperação. Eventualmente, elas geralmente desistem e apenas cuidam de si mesmas.

2. A Equipe "Eu e Eu" (Observando a Si Mesmo)

Quando ambos os jogadores focam apenas em suas próprias ações passadas, as coisas são mais estáveis, mas eles ficam presos facilmente.

  • O Lado Bom: Se a tentação de ser mau for baixa, eles podem ficar presos em um "ciclo feliz", onde ambos são legais para sempre.
  • O Lado Ruim: Se a tentação de ser mau for alta, eles podem ficar presos em um "ciclo triste", onde ambos são malvados para sempre.
  • A Pegadinha: Uma vez que escolhem um ciclo (feliz ou triste), é muito difícil mudar. É como um trem que já saiu da estação; ou ele vai para o destino da "Amizade" ou para o da "Traição", e raramente muda de trilho depois de começar.

3. A Equipe "Você e Eu" (A Visão Mista)

É aqui que a mágica acontece. Quando um jogador observa o outro, e o outro observa a si mesmo, o jogo se torna dinâmico e surpreendentemente eficaz.

Os pesquisadores descobriram uma história complexa de três partes que se desenrola ao longo do tempo:

  • Fase 1: A Lua de Mel. Os dois jogadores percebem que ser legal funciona. Eles começam a cooperar.
  • Fase 2: O Término. Um jogador (aquele que observa o outro) começa a ficar ganancioso. Eles percebem que podem obter uma recompção maior sendo malvados enquanto o outro ainda está sendo legal. Eles exploram seu parceiro. O parceiro legal, confuso mas tentando ser bom, continua sendo legal por um tempo (tolerância), mas eventualmente acaba ferido.
  • Fase 3: A Reconstrução. O parceiro legal finalmente explode. Eles decidem ser malvados também, apenas para dar uma lição ao parceiro ganancioso. Esse "castigo" fere o jogador ganancioso, que então percebe: "Ei, ser mau não está funcionando mais". O jogador ganancioso volta a ser legal. O ciclo recomeça, e eles constroem uma cooperação mais forte e resiliente do que antes.

A Grande Conclusão

A descoberta mais surpreendente é que esta configuração de visão mista (Assimétrica) na verdade leva a uma cooperação mais rápida e forte do que as configurações onde todos veem o mundo da mesma maneira.

Pense nisso como um relacionamento:

  • Se você e seu parceiro olharem apenas para os seus próprios sentimentos, vocês podem ficar presos em uma rotina.
  • Se vocês dois apenas encararem um ao outro, podem ficar ansiosos e instáveis.
  • Mas se um de vocês estiver focado no relacionamento (observando o outro) e o outro estiver focado em seu próprio crescimento (observando a si mesmo), vocês criam uma dinâmica onde podem perdoar erros, aprender com eles e construir um vínculo mais forte.

O artigo conclui que como percebemos a informação importa mais do que pensávamos. A estrutura do que sabemos — e quem sabe o quê — determina se terminaremos em um ciclo de traição ou em um ciclo estável de cooperação. A "visão mista" cria um ritmo natural de confiança, traição, punição e perdão que espelha o comportamento humano real, permitindo que a cooperação sobreviva mesmo quando é difícil.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →