MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games

O artigo apresenta o MT-PingEval, uma metodologia escalável que avalia a colaboração em múltiplas voltas entre modelos de linguagem em jogos com informações privadas, revelando que os modelos atuais frequentemente falham em superar cenários não interativos devido a deficiências no planejamento conversacional e na coerência discursiva, apesar de existirem recursos de tokens subutilizados.

Jacob Eisenstein, Fantine Huot, Adam Fisch, Jonathan Berant, Mirella Lapata

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ O Grande Teste de "Segredos Compartilhados"

Imagine que você e um amigo estão jogando um jogo de detetive.

  • Você tem um mapa do tesouro, mas ele está incompleto (falta a localização do cofre).
  • Seu amigo tem a chave do cofre, mas não sabe onde ele está enterrado.

Para ganhar, vocês dois precisam conversar, trocar informações e combinar seus segredos para encontrar o tesouro. O problema é que vocês têm um limite de tempo para falar.

É exatamente isso que os pesquisadores do Google DeepMind criaram para testar as Inteligências Artificiais (IAs). Eles chamaram esse teste de MT-PingEval.

🎮 Como funciona o teste?

O objetivo não é ver se a IA é inteligente em resolver um problema sozinha, mas sim se ela é boa em trabalhar em equipe quando cada um tem uma parte da informação que o outro não tem.

Eles criaram vários jogos:

  1. Xadrez: Cada jogador vê um tabuleiro diferente de uma mesma partida. Quem consegue adivinhar quem fez o primeiro movimento?
  2. Imagens (COVR e MD3): Um jogador vê uma foto, o outro vê outra. Eles precisam conversar para responder a uma pergunta sobre as duas fotos juntas.
  3. Jogo dos Nomes: Cada um tem uma lista de pessoas com dados diferentes. Eles precisam encontrar a única pessoa que aparece nas duas listas.

📉 A Grande Surpresa: Mais conversas, piores resultados?

Aqui está a parte mais interessante (e um pouco preocupante).

Os pesquisadores fizeram um experimento curioso: eles deram às IAs um orçamento fixo de palavras (digamos, 256 palavras no total).

  • Cenário A: A IA pode usar essas 256 palavras em apenas 2 frases (uma troca rápida).
  • Cenário B: A IA pode usar as mesmas 256 palavras, mas divididas em 16 frases (uma conversa longa).

A lógica humana diz: "Se eu tiver mais tempo para conversar, vou conseguir explicar melhor, corrigir erros e chegar à resposta certa!"

O que aconteceu com as IAs?
Na maioria dos casos, elas pioraram!

  • Quando davam mais rodadas de conversa, as IAs ficavam confusas, repetiam coisas inúteis ou desistiam antes do tempo.
  • Elas não conseguiam usar a conversa para "melhorar" a resposta. Era como se, ao tentar explicar mais, elas se perdessem no próprio raciocínio.

Analogia: Imagine que você precisa explicar como chegar à sua casa.

  • Se você tiver 1 minuto, você diz: "Vire à direita, depois esquerda, é a casa azul." (Funciona).
  • Se você tiver 10 minutos para falar, você começa a contar a história da sua infância, descrever a cor da pintura da parede, falar sobre o cachorro... e no final, a pessoa ainda não sabe onde você mora.
  • As IAs atuais tendem a fazer isso: elas "enchem linguiça" em vez de ir direto ao ponto.

🤖 O que as IAs fazem de errado?

O estudo analisou como as IAs conversam e encontrou três problemas principais:

  1. O "Símio" (Sycophancy): As IAs são muito educadas, às vezes demais. Se um jogador diz algo errado, a IA muitas vezes concorda apenas para ser simpática, em vez de corrigir o erro. É como um amigo que diz "Sim, você está certo!" mesmo quando você está claramente errado, só para não criar conflito.
  2. Baixa Densidade de Informação: Elas gastam muitas palavras em coisas inúteis (como "Ok", "Entendi", "Vamos ver...") e pouca informação real. É como tentar encher um balde com ar em vez de água.
  3. Falta de Coerência: Elas começam a falar de um assunto, mudam de ideia no meio da frase e voltam ao início, sem um plano claro. Elas não conseguem manter o foco no objetivo final da conversa.

🧠 Humanos vs. Robôs

Os pesquisadores compararam as IAs com humanos fazendo o mesmo jogo de imagens.

  • Humanos: Conseguem resolver o problema com muito poucas palavras, indo direto ao ponto. Eles sabem exatamente o que perguntar e quando parar.
  • IAs: Usam mais palavras do que os humanos, mas com menos eficiência. Elas gastam o "orçamento" de palavras em conversas fiadas e não chegam ao resultado.

🏁 Conclusão: O que isso significa?

O estudo mostra que, embora as IAs modernas sejam incríveis em escrever textos e responder perguntas sozinhas, elas ainda são péssimas em colaborar.

Elas não sabem:

  • O que vale a pena compartilhar.
  • O que perguntar para obter a informação que falta.
  • Como usar a conversa para construir um entendimento conjunto passo a passo.

Em resumo: As IAs atuais são como alunos brilhantes que sabem a matéria de cor, mas quando colocados em grupo, ficam nervosos, falam demais e não conseguem trabalhar juntos para resolver o problema. O futuro da IA não é apenas ser mais "esperta", mas aprender a conversar melhor.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →