MERIT Feedback Elicits Better Bargaining in LLM Negotiators

O artigo apresenta o framework MERIT, que inclui o benchmark AgoraBench, métricas alinhadas à teoria da utilidade e um pipeline de aprendizado baseado em preferências humanas, demonstrando que essa abordagem melhora significativamente a capacidade de negociação estratégica e a adaptação a fatores humanos em Grandes Modelos de Linguagem.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim

Publicado 2026-03-09
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando comprar um carro usado. Você quer pagar o mínimo possível, o vendedor quer o máximo, e ambos estão tentando ler a mente um do outro. Isso é uma negociação.

Por muito tempo, os cientistas pensaram que as Inteligências Artificiais (IA), como o ChatGPT, seriam ótimas nisso porque são "lógicas". Mas a realidade é que elas costumam ser péssimas em negociar. Elas agem como se fossem robôs sem intuição, focando apenas em números e ignorando o "feeling" humano.

Este artigo, chamado "MERIT Feedback Elicits Better Bargaining in LLM Negotiators", é como um manual de instruções para ensinar essas IAs a se tornarem negociadores humanos de verdade.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Aluno" que estuda só para a prova

Os pesquisadores disseram: "As IAs atuais são como alunos que decoram a fórmula de matemática para passar na prova, mas não sabem como usar a matemática para dividir uma pizza com amigos".

  • O que faltava: Até agora, os testes para medir se uma IA é boa em negociar eram muito simples (como "vender um carro por $500 ou $600"). Eles não testavam situações difíceis, como quando o vendedor está mentindo sobre o estado do carro, ou quando você tem várias opções de compra e precisa escolher a melhor.
  • A Solução (AGORABENCH): Eles criaram um novo "campo de treinamento" chamado AGORABENCH. Pense nele como um simulador de voo para pilotos. Em vez de apenas voar em linha reta, o simulador coloca o piloto em tempestades, falhas no motor e tráfego aéreo.
    • O AGORABENCH tem 9 cenários diferentes: desde uma venda normal até situações onde o vendedor é um monopólio (você não tem escolha, ele é o único vendedor), onde ele pode mentir sobre o produto, ou onde você pode pagar em parcelas.

2. A Medida Errada: "Lucro" não é tudo

Antes, para ver se a IA era boa, olhávamos apenas para o lucro (quanto dinheiro ela economizou).

  • A Analogia: Imagine que você comprou um tênis. Se você pagou $10 a menos do que o preço de etiqueta, mas comprou o tênis errado (que não serve no seu pé), você "ganhou" dinheiro, mas perdeu a satisfação.
  • O Erro: As IAs antigas ficavam tão obcecadas em baixar o preço que às vezes aceitavam um produto ruim ou não fechavam o negócio.

3. A Nova Régua: O "MERIT"

Os autores criaram uma nova régua de medição chamada MERIT. Pense no MERIT como um "termômetro de satisfação humana". Ele não olha apenas para o dinheiro, mas para três coisas:

  1. O Desconto (Sobras): Quanto você economizou em relação ao que estava disposto a pagar?
  2. O Poder de Negociação: Você conseguiu empurrar o preço para baixo com firmeza?
  3. O Acerto do Produto: Você conseguiu o item que realmente queria?

Se a IA negocia um preço baixo, mas compra um produto que ela não queria, o MERIT dela cai. Se ela negocia um preço justo e leva o produto dos sonhos, o MERIT sobe. Isso alinha a IA com o que um humano real valorizaria.

4. O Treinamento: O "Espelho" da Preferência Humana

Como eles ensinaram a IA a usar essa nova régua?

  • Coletando Opiniões Reais: Eles pediram para pessoas reais (no Amazon Mechanical Turk) olharem para duas conversas de negociação e escolherem: "Qual delas foi melhor para o comprador?".
  • O Feedback (MERIT): Eles usaram essas escolhas humanas para criar um sistema de feedback. É como se a IA estivesse jogando xadrez e, a cada movimento, um mestre humano dissesse: "Esse movimento foi bom porque você manteve a estratégia, mesmo que não tenha ganho a peça agora".
  • A Técnica (ICL-MF): Eles ensinaram a IA a pensar como um humano antes de falar. Em vez de apenas dizer "Ofereço $400", a IA agora pensa internamente: "O vendedor parece estar segurando o preço. Se eu oferecer $400, ele pode achar que estou desistindo. Vou tentar $420 e mostrar que estou interessado, mas disposto a sair se não baixar."

5. O Resultado: IAs que "Lêem a Sala"

Depois de treinadas com o MERIT, as IAs mudaram de comportamento:

  • Antes: Eram agressivas ou ingênuas. Podiam mentir de forma estranha ou recuar de repente, o que não faz sentido em uma negociação real.
  • Depois: Elas começaram a "ler o pensamento" do oponente. Elas perceberam que, se o vendedor está insistindo em um preço, é porque o custo dele é alto. Elas aprenderam a fazer concessões estratégicas (dar um pouco para ganhar mais) em vez de apenas baixar o preço cegamente.

Resumo em uma frase

Os pesquisadores criaram um simulador de negociações realistas e uma nova régua de medição (MERIT) que valoriza tanto o preço quanto a satisfação humana, ensinando as IAs a negociarem não como calculadoras frias, mas como pessoas espertas que sabem o que realmente querem.

A lição final: Para uma IA ser boa em negociar, ela não precisa apenas ser inteligente em matemática; ela precisa entender a psicologia e as preferências humanas.