Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, mas que às vezes é um pouco "teimoso" ou "rígido". Se você pedir a ele para resolver um problema onde duas pessoas têm opiniões opostas (como um pai que quer economizar dinheiro e uma mãe que quer o melhor para a saúde dos filhos), a IA tradicional pode tentar escolher um lado, inventar uma solução mágica que não existe, ou simplesmente ficar presa em um ciclo de "eu acho que sim, eu acho que não".

Este artigo apresenta uma nova maneira de treinar essas IAs para se tornarem diplomatas mestres. Em vez de apenas obedecer a uma regra fixa, eles aprendem a negociar.

Aqui está a explicação do trabalho, usando analogias do dia a dia:

1. O Problema: O "Robô de Um Só Lado"

Atualmente, a maioria das IAs é treinada como um aluno que estuda para uma prova única. Eles aprendem a ser "úteis, honestos e inofensivos" (como se fosse uma lista de regras).

O defeito: Quando o mundo real aparece com conflitos complexos (ex: "Precisamos de justiça, mas também de privacidade"), o robô fica confuso. Ele pode tentar agradar a todos de forma superficial ou dar uma resposta que parece correta, mas não resolve o problema de verdade. É como um juiz que tenta dar uma sentença que ninguém gosta, apenas para encerrar o caso rápido.

2. A Solução: O "Debate Interno" (Auto-Jogo)

Os autores criaram um método onde a IA não aprende sozinha. Eles fazem a IA conversar consigo mesma (ou melhor, com uma cópia de si mesma) como se fossem duas pessoas diferentes.

A Analogia do Espelho Dividido: Imagine que você tem um espelho mágico. De um lado do espelho está o "Você A", que é um advogado focado em proteger segredos. Do outro lado está o "Você B", que é um ativista focado em justiça.
O Treinamento: Em vez de apenas responder a uma pergunta, a IA é forçada a jogar um jogo de tabuleiro onde ela precisa ser o "Você A" e o "Você B" ao mesmo tempo. Ela precisa conversar, argumentar e tentar chegar a um acordo que satisfaça ambos os lados.
O Objetivo: Eles não querem apenas um "sim" ou "não". Eles querem que a IA aprenda a criar uma terceira via (uma solução criativa) que funcione para ambos.

3. A Métrica de Sucesso: "A Agência Coletiva"

Como saber se a IA está fazendo um bom trabalho? Eles usam um conceito chamado Agência Coletiva.

A Analogia da Orquestra: Pense em uma orquestra. Se o violinista toca muito alto para se destacar, a música fica ruim. Se o baterista para de tocar para não atrapalhar, a música fica sem ritmo.
O que é Agência Coletiva? É quando todos os músicos (ou agentes) conseguem tocar suas partes de forma que a música inteira fique melhor do que se cada um tocasse sozinho. Não é sobre um lado ganhar e o outro perder; é sobre expandir a capacidade de todos de agir e viver bem juntos.
A IA é recompensada quando ela encontra uma solução onde ninguém precisa abrir mão de seus valores fundamentais, mas todos ganham algo novo.

4. Como Funciona na Prática (O Processo)

Criação de Cenários: Os pesquisadores criaram 1.100 situações difíceis (dilemas morais), como "Um hospital tem apenas um ventilador para dois pacientes: um jovem pai e um cientista idoso que pode salvar milhares".
Personas Opostas: Eles dão "personas" (personalidades) opostas para a IA. Uma persona é "Foco em Eficiência e Custos", a outra é "Foco em Qualidade e Segurança".
A Negociação: A IA conversa consigo mesma por várias rodadas.
- Rodada 1: "Não podemos cortar custos!" vs "Precisamos economizar!"
- Rodada 2: "E se usarmos uma tecnologia mais barata que ainda é segura?"
- Rodada 3: "Ok, isso funciona para ambos!"
O Juiz: Um "juiz" (outra IA) olha para a conversa final. Se eles chegaram a um acordo real e criativo, a IA ganha pontos. Se eles brigaram ou não chegaram a lugar nenhum, ela ganha zero pontos.
Aprendizado: A IA aprende com esses pontos. Ela descobre que "brigar" não traz recompensa, mas "negociar criativamente" sim.

5. Os Resultados: O Que Mudou?

Melhor Resolução de Conflitos: A nova IA é muito melhor em resolver brigas do que as IAs antigas. Ela não apenas dá uma resposta, ela constrói uma ponte entre ideias opostas.
Não Perdeu a Inteligência: O mais importante é que, ao aprender a negociar, a IA não ficou "burra" em outras coisas. Ela continua sendo boa em matemática, seguindo instruções e respondendo perguntas gerais.
Mais Robusta: Quando a IA é testada em situações novas (que ela nunca viu antes), ela consegue se adaptar melhor, porque aprendeu a processo de negociação, não apenas a memorizar respostas.

Resumo Final

Pense nisso como transformar um robô que obedece ordens em um diplomata que entende pessoas.

Em vez de treinar a IA para ser "certa" segundo uma regra fixa, eles a treinaram para ser flexível e colaborativa. Eles a colocaram em um "campo de treino" onde ela teve que negociar com seus próprios "eus" opostos. O resultado? Uma Inteligência Artificial que não apenas responde perguntas, mas que consegue ajudar humanos a resolverem seus próprios conflitos, encontrando soluções onde todos ganham.

É como ensinar uma criança a não apenas obedecer aos pais, mas a entender o ponto de vista do irmão e encontrar um jeito de brincar onde os dois se divertem.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Aprendizado de Negociação para Alinhamento Coletivo em LLMs

1. O Problema

Os modelos de linguagem grandes (LLMs) alcançaram avanços significativos no alinhamento em ambientes de agente único através de paradigmas como RLHF (Reinforcement Learning from Human Feedback) e RLAIF (Reinforcement Learning from AI Feedback). No entanto, essas abordagens enfrentam limitações críticas em cenários de múltiplas partes interessadas (multi-stakeholder), onde surgem conflitos de valores reais.

Limitações Atuais: Os objetivos de alinhamento estáticos (como "útil, honesto e inofensivo") falham em capturar a diversidade de sistemas de valores do mundo real e não abordam diretamente a necessidade de deliberação e negociação quando interesses entram em conflito.
Falha na Resolução de Conflitos: Mesmo métodos de alinhamento dinâmico, como o Collective Agency (CA), mostram-se insuficientes em ambientes multi-agente. Modelos alinhados ao CA em configurações de agente único tendem a produzir respostas consistentes com os valores, mas não convergentes ou abstratas quando confrontados com desacordos, falhando em sintetizar soluções práticas.

2. Metodologia

O trabalho propõe um framework de alinhamento baseado em negociação multi-agente que treina LLMs para alinhar-se ao objetivo de Collective Agency (CA) enquanto aprimora a capacidade de resolução de conflitos.

A. Definição do Objetivo: Collective Agency (CA)
O CA é definido como a expansão contínua da agência significativa, composta por quatro aspectos inseparáveis:

Conhecimento: Expansão da percepção e compreensão.
Benevolência: Apoio à agência e bem-estar dos outros.
Poder: Capacidade de realizar intenções.
Vitalidade: Capacidade de adaptação, renovação e crescimento a longo prazo.
O objetivo não é um estado fixo, mas um processo de síntese onde todos os aspectos são expandidos simultaneamente, evitando compromissos que reduzam a agência de qualquer parte.

B. Arquitetura de Treinamento (Self-Play)
Para permitir o treinamento escalável sem a necessidade de múltiplos modelos treinados separadamente, o sistema utiliza uma configuração de self-play:

Agentes: Dois agentes são instanciados a partir do mesmo modelo de política ( $\pi_\theta$ ). Um é treinável, e o outro é uma cópia congelada do modelo na iteração atual.
Personas Adversariais: Cada agente recebe uma "persona" (objetivo intrínseco) oposta, extraída de um banco de dados de 25 pares de personas conflitantes (ex: "Maximizar velocidade" vs. "Maximizar qualidade").
Fase de Negociação: Os agentes engajam em um diálogo estruturado em turnos para reconciliar objetivos concorrentes e chegar a uma solução mutuamente aceitável.
Fase de Conclusão: Após a negociação (ou se ela falhar), o agente 1 gera uma conclusão final que resume a resolução.

C. Geração de Dados e Curriculo

Foi criado um currículo sintético com 1.100 dilemas morais e práticos (profissionais, interpessoais e micro-éticos) e 50 personas (25 pares opostos).
Os dados são gerados usando o modelo Gemini-3-Pro, garantindo diversidade sem necessidade de anotação humana massiva.

D. Otimização via GRPO e RLAIF
O treinamento utiliza Reinforcement Learning from AI Feedback (RLAIF) com o algoritmo GRPO (Group Relative Policy Optimization):

Avaliação: Um LLM externo (juiz) atua em duas funções:
1. Determinar se a negociação chegou a um acordo concreto.
2. Atribuir uma pontuação de CA (0-5) à conclusão final.
Sinal de Recompensa:
- Negociações bem-sucedidas recebem a pontuação de CA.
- Negociações falhas (sem acordo) recebem recompensa zero, criando um sinal negativo explícito para comportamentos que não convergem.
Atualização de Gradientes: Os gradientes são aplicados diretamente nos tokens do diálogo, não apenas na conclusão final. Isso treina o modelo a melhorar a dinâmica interativa da negociação, e não apenas a capacidade de resumo.
Normalização Relativa: O GRPO usa comparações dentro de um grupo (G=8 trajetórias por prompt) para calcular vantagens normalizadas, mitigando viés de comprimento e focando na qualidade relativa da negociação.

3. Resultados Principais

Os experimentos foram conduzidos no modelo Qwen3-14B-Instruct, comparando o modelo alinhado multi-agente com uma base (Qwen original) e um modelo alinhado em agente único (via CA).

Desempenho em Resolução de Conflitos:
- O modelo multi-agente superou significativamente tanto a base quanto o modelo de agente único em tarefas de resolução de conflitos.
- Taxa de Acordo: Aumentou de ~91% para ~97%.
- Eficiência: O número médio de rodadas para chegar a um acordo diminuiu de ~2.3 para ~1.9.
- Qualidade: Em comparações pareadas, o modelo multi-agente foi preferido em 67.7% (greedy) e 72.8% (amostragem) contra o modelo de agente único em tarefas de conflito.
Alinhamento ao Collective Agency (CA):
- O modelo multi-agente alcançou alinhamento ao CA comparável ao modelo de agente único em cenários de negociação.
- Observou-se uma melhoria na consistência de gerar respostas de alta qualidade e convergentes, especialmente quando se utiliza decodificação estocástica (amostragem), indicando maior robustez.
Preservação de Capacidades Gerais:
- O modelo não degradou suas capacidades gerais de linguagem.
- Desempenho mantido em benchmarks padrão como IFEval (seguimento de instruções), AIME (raciocínio matemático) e GPQA (ciência), demonstrando que o treinamento focado em negociação não compromete outras habilidades.

4. Contribuições Chave

Framework de Negociação Multi-Agente Escalável: Propõe um método eficiente que utiliza self-play e RLAIF para treinar LLMs a lidar com conflitos de valores sem depender de anotação humana cara.
Integração de CA e Resolução de Conflitos: Demonstra que é possível otimizar simultaneamente para um objetivo de alinhamento dinâmico (CA) e para a habilidade prática de negociação, superando a falha de modelos de agente único que produzem respostas abstratas em conflitos.
Treinamento em Tokens de Diálogo: A inovação de aplicar gradientes nos tokens de interação (diálogo) em vez de apenas na conclusão final, moldando diretamente a dinâmica deliberativa.
Evidência Empírica de Melhoria: Prova que a deliberação estruturada melhora a inteligência coletiva e a tomada de decisão em cenários de múltiplas partes interessadas, mantendo a competência geral do modelo.

5. Significado e Impacto

Este trabalho sugere que o futuro do alinhamento de LLMs em ambientes complexos e reais (onde interesses divergem) não reside apenas em otimizar comportamentos estáticos de um único agente, mas em treinar a capacidade de deliberação e negociação.

Aplicabilidade: O framework oferece um caminho prático para desenvolver assistentes de IA capazes de mediar conflitos éticos, legais e sociais, atuando como ferramentas de suporte à decisão coletiva.
Futuro: Abre caminho para sistemas de IA que não apenas "agradam" o usuário, mas que conseguem sintetizar perspectivas opostas em soluções viáveis e mutuamente benéficas, essencial para a governança de IA em sociedades pluralistas.

Limitações Notadas: O estudo atual foca em pares de agentes (2 agentes) e utiliza dados sintéticos. Futuras pesquisas devem explorar interações com múltiplos agentes (N>2) e validar os resultados com dados humanos reais e juízes humanos.

Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

1. O Problema: O "Robô de Um Só Lado"

2. A Solução: O "Debate Interno" (Auto-Jogo)

3. A Métrica de Sucesso: "A Agência Coletiva"

4. Como Funciona na Prática (O Processo)

5. Os Resultados: O Que Mudou?

Resumo Final

Resumo Técnico: Aprendizado de Negociação para Alinhamento Coletivo em LLMs

1. O Problema

2. Metodologia

3. Resultados Principais

4. Contribuições Chave

5. Significado e Impacto

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models