Unveiling value functions in social cognition with multi-agentinverse reinforcement learning

Este artigo apresenta o MAIRL, um framework escalável e interpretável de aprendizado por reforço inverso multiagente que decompõe funções de valor conjuntas em mapas individuais e termos de interação para revelar representações latentes de comportamento social em roedores e primatas.

Chen, Y., Cheng, Y., Kwak, M., Radulescu, A., Wu, H. Z.

Publicado 2026-04-08
📖 3 min de leitura☕ Leitura rápida
⚕️

Esta é uma explicação gerada por IA de um preprint que não foi revisado por pares. Não é aconselhamento médico. Não tome decisões de saúde com base neste conteúdo. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está observando um grupo de amigos em uma festa. Você consegue ver o que eles estão fazendo: um pega um copo, outro ri de uma piada, um terceiro se afasta do grupo. Mas o que você não vê são os pensamentos e desejos secretos que estão guiando essas ações. Por que o João foi até a cozinha? Será que ele estava com fome, ou queria fugir de uma conversa chata?

É exatamente sobre esse mistério que o artigo "Desvendando funções de valor na cognição social" trata.

Aqui está a explicação, usando uma analogia simples:

O Problema: O Labirinto de Espelhos

Antes, os cientistas usavam uma ferramenta chamada "Aprendizado por Reforço Inverso" para descobrir o que as pessoas (ou animais) querem, apenas olhando para o que elas fazem. Funciona bem quando é uma pessoa sozinha. É como tentar adivinhar o objetivo de um jogador de xadrez olhando apenas para os movimentos dele.

Mas quando várias pessoas interagem, vira um caos. Imagine que cada pessoa é um espelho que reflete os desejos dos outros. Se você tem 3 pessoas, os desejos se misturam de formas tão complexas que é como tentar resolver um labirinto onde as paredes mudam de lugar a cada segundo. Os métodos antigos tentavam simplificar isso fazendo suposições rígidas (como "todos sempre cooperam" ou "ninguém compete"), o que não é verdade na vida real.

A Solução: A Receita de Bolo Desmontada

Os autores deste estudo criaram uma nova ferramenta chamada MAIRL. Para entender como ela funciona, imagine que o comportamento de um grupo é um bolo gigante.

Os métodos antigos tentavam analisar o bolo inteiro de uma vez, o que é difícil e confuso. O MAIRL, no entanto, faz algo inteligente: ele desmonta o bolo.

Ele separa o bolo em duas partes:

  1. Os ingredientes individuais: O que cada pessoa quer para si mesma (ex: "Eu quero comer um pedaço de bolo").
  2. O tempero da interação: Como a presença dos outros muda o gosto desse desejo (ex: "Mas se o meu amigo estiver olhando, eu não quero comer para não parecer ganancioso").

Ao separar o "desejo individual" do "efeito do grupo", o MAIRL consegue entender a lógica complexa sem precisar de um supercomputador ou de regras rígidas.

O Experimento: Macacos e Camundongos

Para testar essa ideia, os cientistas observaram camundongos e macacos em situações sociais. Eles usaram o MAIRL para "ler a mente" desses animais.

O resultado foi incrível: a ferramenta conseguiu desenhar mapas mentais claros. Por exemplo, ela mostrou que, dependendo do papel que o animal estava jogando na interação (quem era o líder, quem era o seguidor, quem estava com medo), o "desejo" dele mudava de forma previsível.

Por que isso é importante?

Pense no MAIRL como um tradutor universal de intenções.

  • Antes: Era como tentar entender uma conversa em um idioma que ninguém dominava, apenas chutando o significado.
  • Agora: Temos um dicionário que nos diz exatamente o que cada pessoa (ou animal) valoriza em uma situação social, mesmo quando estão todos agindo juntos.

Isso nos ajuda a entender não só como os animais pensam, mas também como os humanos tomam decisões em grupos, desde uma reunião de trabalho até uma briga de trânsito. É uma forma de ver a "mágica" invisível que conecta nossas ações às nossas intenções.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →