MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando comprar um carro usado. Você quer pagar o mínimo possível, o vendedor quer o máximo, e ambos estão tentando ler a mente um do outro. Isso é uma negociação.

Por muito tempo, os cientistas pensaram que as Inteligências Artificiais (IA), como o ChatGPT, seriam ótimas nisso porque são "lógicas". Mas a realidade é que elas costumam ser péssimas em negociar. Elas agem como se fossem robôs sem intuição, focando apenas em números e ignorando o "feeling" humano.

Este artigo, chamado "MERIT Feedback Elicits Better Bargaining in LLM Negotiators", é como um manual de instruções para ensinar essas IAs a se tornarem negociadores humanos de verdade.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Aluno" que estuda só para a prova

Os pesquisadores disseram: "As IAs atuais são como alunos que decoram a fórmula de matemática para passar na prova, mas não sabem como usar a matemática para dividir uma pizza com amigos".

O que faltava: Até agora, os testes para medir se uma IA é boa em negociar eram muito simples (como "vender um carro por $500 ou $600"). Eles não testavam situações difíceis, como quando o vendedor está mentindo sobre o estado do carro, ou quando você tem várias opções de compra e precisa escolher a melhor.
A Solução (AGORABENCH): Eles criaram um novo "campo de treinamento" chamado AGORABENCH. Pense nele como um simulador de voo para pilotos. Em vez de apenas voar em linha reta, o simulador coloca o piloto em tempestades, falhas no motor e tráfego aéreo.
- O AGORABENCH tem 9 cenários diferentes: desde uma venda normal até situações onde o vendedor é um monopólio (você não tem escolha, ele é o único vendedor), onde ele pode mentir sobre o produto, ou onde você pode pagar em parcelas.

2. A Medida Errada: "Lucro" não é tudo

Antes, para ver se a IA era boa, olhávamos apenas para o lucro (quanto dinheiro ela economizou).

A Analogia: Imagine que você comprou um tênis. Se você pagou $10 a menos do que o preço de etiqueta, mas comprou o tênis errado (que não serve no seu pé), você "ganhou" dinheiro, mas perdeu a satisfação.
O Erro: As IAs antigas ficavam tão obcecadas em baixar o preço que às vezes aceitavam um produto ruim ou não fechavam o negócio.

3. A Nova Régua: O "MERIT"

Os autores criaram uma nova régua de medição chamada MERIT. Pense no MERIT como um "termômetro de satisfação humana". Ele não olha apenas para o dinheiro, mas para três coisas:

O Desconto (Sobras): Quanto você economizou em relação ao que estava disposto a pagar?
O Poder de Negociação: Você conseguiu empurrar o preço para baixo com firmeza?
O Acerto do Produto: Você conseguiu o item que realmente queria?

Se a IA negocia um preço baixo, mas compra um produto que ela não queria, o MERIT dela cai. Se ela negocia um preço justo e leva o produto dos sonhos, o MERIT sobe. Isso alinha a IA com o que um humano real valorizaria.

4. O Treinamento: O "Espelho" da Preferência Humana

Como eles ensinaram a IA a usar essa nova régua?

Coletando Opiniões Reais: Eles pediram para pessoas reais (no Amazon Mechanical Turk) olharem para duas conversas de negociação e escolherem: "Qual delas foi melhor para o comprador?".
O Feedback (MERIT): Eles usaram essas escolhas humanas para criar um sistema de feedback. É como se a IA estivesse jogando xadrez e, a cada movimento, um mestre humano dissesse: "Esse movimento foi bom porque você manteve a estratégia, mesmo que não tenha ganho a peça agora".
A Técnica (ICL-MF): Eles ensinaram a IA a pensar como um humano antes de falar. Em vez de apenas dizer "Ofereço $400", a IA agora pensa internamente: "O vendedor parece estar segurando o preço. Se eu oferecer $400, ele pode achar que estou desistindo. Vou tentar $420 e mostrar que estou interessado, mas disposto a sair se não baixar."

5. O Resultado: IAs que "Lêem a Sala"

Depois de treinadas com o MERIT, as IAs mudaram de comportamento:

Antes: Eram agressivas ou ingênuas. Podiam mentir de forma estranha ou recuar de repente, o que não faz sentido em uma negociação real.
Depois: Elas começaram a "ler o pensamento" do oponente. Elas perceberam que, se o vendedor está insistindo em um preço, é porque o custo dele é alto. Elas aprenderam a fazer concessões estratégicas (dar um pouco para ganhar mais) em vez de apenas baixar o preço cegamente.

Resumo em uma frase

Os pesquisadores criaram um simulador de negociações realistas e uma nova régua de medição (MERIT) que valoriza tanto o preço quanto a satisfação humana, ensinando as IAs a negociarem não como calculadoras frias, mas como pessoas espertas que sabem o que realmente querem.

A lição final: Para uma IA ser boa em negociar, ela não precisa apenas ser inteligente em matemática; ela precisa entender a psicologia e as preferências humanas.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

A negociação é frequentemente vista como um domínio lógico, mas os Modelos de Linguagem de Grande Escala (LLMs) ainda enfrentam dificuldades significativas ao navegar por cenários complexos devido à profundidade estratégica limitada e à incapacidade de se adaptar a fatores humanos dinâmicos.

Os desafios principais identificados pelos autores são:

Deficiência em Benchmarks Existentes: As avaliações atuais (como Deal or No Deal? ou Craigslist) focam em cenários simplificados, de um único item e sem mecanismos de mercado complexos (como planos de pagamento, monopólios ou percepções negativas do vendedor).
Métricas de Avaliação Inadequadas: A maioria das métricas baseia-se apenas no lucro monetário (ganho financeiro), ignorando preferências humanas reais, como a satisfação com o produto adquirido, a justiça percebida e a adaptação a estratégias opostas.
Desalinhamento Comportamental: LLMs tendem a adotar comportamentos irracionais (como concessões instáveis ou falta de Teoria da Mente) que divergem dos padrões humanos, levando a falhas em negociações realistas.

2. Metodologia Proposta

Para superar essas limitações, a equipe propõe um framework centrado no feedback de utilidade, composto por três pilares principais:

A. AGORABENCH: Um Novo Benchmark

Um ambiente de benchmark abrangente que simula nove regimes de mercado economicamente fundamentados, cobrindo tanto cenários de produto único quanto múltiplos produtos. Os cenários incluem:

Vanilla: Negociação básica.
Deceptive (Enganoso): Permite que as partes mentam sobre a qualidade ou custo do produto.
Monopoly (Monopólio): Um único vendedor limita as opções do comprador.
Installment (Parcelamento): Introduz trade-offs financeiros temporais.
Negative Perception: O vendedor tem uma reputação negativa prévia.
Multi-product: O comprador pode substituir itens preferidos por alternativas devido a restrições orçamentárias.

O framework utiliza um esquema estruturado Thoughts-Talk-Action (Pensamento-Fala-Ação), permitindo que os agentes raciocinem internamente antes de agir.

B. MERIT: Métrica de Avaliação Alinhada ao Humano

Os autores introduzem o MERIT (Multi-dimensional Evaluation of Reasoning & Interaction in Trade), uma métrica multidimensional baseada na teoria da utilidade econômica. Diferente de métricas puramente financeiras, o MERIT combina três componentes ponderados:

Excedente do Consumidor (CS): A diferença entre a disposição a pagar (WTP) e o preço final, normalizada pelo custo de produção.
Poder de Negociação (NP): A capacidade do comprador de reduzir o preço inicial do vendedor em relação ao custo.
Taxa de Aquisição (AR): A similaridade semântica entre o produto adquirido e o produto desejado inicialmente (utilizando embeddings de texto).

A fórmula é: $MERIT = \alpha \cdot CS + \beta \cdot NP + \gamma \cdot AR$ .
Os coeficientes ( $\alpha, \beta, \gamma$ ) foram otimizados globalmente usando o Modelo Bradley-Terry com dados de preferências humanas coletados via Amazon Mechanical Turk (MTurk), garantindo que a métrica reflita o que os humanos consideram uma "boa negociação".

C. Pipeline de Aprendizado e Feedback

O MERIT é utilizado como sinal de feedback para melhorar os LLMs através de duas abordagens:

ICL-MF (In-Context Learning com MERIT): O modelo recebe instruções no contexto (prompt) que definem o MERIT como sua função de recompensa privada, incentivando-o a estimar o custo do oponente e calcular trade-offs econômicos explicitamente.
Ajuste Fino (SFT): Um modelo (gpt-oss-20b) foi ajustado com LoRA utilizando diálogos de negociação preferidos por humanos, excluindo pensamentos internos não observáveis do vendedor para manter o realismo.

3. Contribuições Principais

AGORABENCH: A primeira benchmark que cobre regimes de mercado diversificados e economicamente realistas, incluindo deception, monopólio e múltiplos produtos.
MERIT: Uma nova métrica de avaliação que supera a visão limitada de "lucro máximo", alinhando-se com preferências humanas sobre processo e resultado.
Análise de Comportamento: Identificação de que LLMs frequentemente exibem comportamentos irracionais (como ancoragem instável) e que a falta de "Raciocínio Consciente do Oponente" (Opponent-Aware Reasoning - OAR) é um gargalo crítico.
Método de Melhoria: Demonstração de que o uso do MERIT como feedback (via ICL e SFT) eleva significativamente a taxa de acordos e a qualidade estratégica dos agentes.

4. Resultados Empíricos

Os experimentos foram conduzidos com diversos modelos (GPT-4o, GPT-4o-mini, Gemini-1.5-Pro/Flash, DeepSeek, etc.) contra vendedores simulados.

Desempenho Superior do MERIT: O método ICL-MF superou consistentemente as bases ReAct e OG-Narrator em todas as configurações (produto único e múltiplo).
- Em cenários de produto único, o ICL-MF alcançou taxas de acordo de ~99% e pontuações MERIT significativamente mais altas.
- Em cenários de múltiplos produtos, o SFT (Ajuste Fino) mostrou-se superior ao ICL-MF, indicando que o aprendizado supervisionado é mais eficaz para gerenciar trade-offs complexos entre produtos.
Raciocínio Consciente do Oponente (OAR): A análise dos "pensamentos" internos dos agentes revelou que o ICL-MF gera muito mais raciocínio sobre o custo oculto e a estratégia do oponente (OAR) em comparação com o ReAct padrão. Isso levou a negociações mais adaptativas e menos impulsivas.
Validação Humana e por LLM:
- O MERIT correlacionou-se fortemente com as preferências humanas (AUC de 0.80 vs. 0.68 para métricas de lucro puro).
- Um juiz LLM (gemma-3-27b) preferiu consistentemente as negociações geradas pelo ICL-MF em comparação com as bases, validando a qualidade estratégica.
Impacto de Condições de Mercado:
- Monopólio: Reduziu drasticamente a taxa de acordos e o MERIT para os compradores, refletindo o poder do vendedor.
- Engano (Deception): Geralmente melhorou os resultados do comprador, sugerindo que LLMs podem se beneficiar de estratégias agressivas em ambientes desonestos.
- Tamanho do Modelo: Não houve uma correlação direta e consistente entre o tamanho do modelo e o desempenho de negociação; estratégias de treinamento e prompts foram mais determinantes.

5. Significado e Conclusão

O trabalho demonstra que para que LLMs se tornem negociadores autônomos eficazes, é necessário ir além da otimização de lucro e incorporar preferências humanas e raciocínio econômico profundo.

Mudança de Paradigma: A introdução do MERIT muda o foco de "quem ganha mais dinheiro" para "quem realiza a melhor transação alinhada às preferências e restrições do usuário".
Aplicabilidade: O framework AGORABENCH e o método MERIT oferecem uma base sólida para desenvolver agentes de IA mais robustos para aplicações reais em e-commerce, suporte ao cliente e mercados digitais.
Limitações Futuras: O estudo é focado no lado do comprador e não considera ainda ferramentas de agentes (como busca em tempo real) ou nuances culturais e regulatórias globais, apontando caminhos para pesquisas futuras.

Em resumo, o artigo estabelece que o feedback baseado em utilidade humana (MERIT) é crucial para elicitar comportamentos de negociação estratégicos, profundos e alinhados com a realidade humana em LLMs.