Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que las Inteligencias Artificiales (como los modelos de lenguaje o LLMs) son como niños muy inteligentes que han aprendido a hablar perfectamente, pero a veces tienen problemas para ponerse de acuerdo cuando dos personas tienen opiniones muy diferentes.

Hasta ahora, la forma de "educar" a estas IAs era como si un solo maestro les dijera: "Haz esto, sé amable, sé honesto". Pero en el mundo real, la vida es más compleja: a veces tienes que negociar entre dos cosas buenas que chocan entre sí (por ejemplo: "proteger la privacidad de un paciente" vs. "salvar la vida de una persona inocente").

Este paper presenta una nueva forma de enseñar a estas IAs: el arte de la negociación.

Aquí te lo explico con una analogía sencilla:

1. El Problema: El "Niño Solitario" vs. El "Equipo de Debate"

Imagina que quieres que un niño aprenda a resolver conflictos.

El método antiguo (RLHF/RLAIF): Es como si el niño se sentara solo en una habitación y un maestro le dijera: "Si haces esto, te doy una estrella; si haces lo otro, no". El niño aprende a dar respuestas "correctas" para el maestro, pero si se encuentra con alguien que piensa diferente, se queda atascado o da respuestas vagas.
El nuevo método (Negociación Multi-Agente): En lugar de dejarlo solo, le pones un espejo mágico. El niño habla consigo mismo, pero el "espejo" tiene una personalidad opuesta.
- El Niño (Agente A) dice: "¡La privacidad es lo más importante!".
- El Espejo (Agente B) dice: "¡Pero la justicia es lo más importante!".
- Juntos deben negociar hasta encontrar una solución que no traicione a ninguno de los dos. No es una pelea, es un baile donde ambos deben encontrar un paso que les guste a los dos.

2. La Meta: "Agencia Colectiva" (El Superpoder de Crecer Juntos)

El papel introduce un concepto llamado Agencia Colectiva. Imagina que la IA no es un robot que solo obedece, sino un jardinero.

Un buen jardinero no solo corta las malas hierbas (evitar el mal), sino que hace que todo el jardín crezca más fuerte, más sabio y más capaz de cuidar a otros.
La "Agencia Colectiva" significa: ¿Esta solución hace que todos los involucrados sean más libres, más sabios y más capaces de crecer en el futuro?
Si la IA encuentra una solución que solo satisface a uno y deja al otro triste o limitado, no es una buena solución. Debe encontrar una síntesis (una mezcla creativa) donde ambos ganen más de lo que tenían antes.

3. Cómo se entrena (El Gimnasio de la Negociación)

Los autores crearon un "gimnasio" virtual para entrenar a la IA:

El Entrenador (El Juez): Usan otra IA muy lista (como un árbitro) que observa la conversación entre el Niño y el Espejo.
La Puntuación: El árbitro no solo mira quién gana, sino qué tan bien se pusieron de acuerdo.
- Si se pelean y no llegan a nada: ¡Cero puntos! (El árbitro les dice: "Inténtalo de nuevo, eso no funcionó").
- Si llegan a un acuerdo rápido y creativo: ¡Muchos puntos!
El Aprendizaje: La IA repite este proceso miles de veces con diferentes problemas (desde dilemas éticos en hospitales hasta discusiones sobre cómo organizar una oficina). Aprende que hablar, escuchar y cambiar de opinión es la clave para ganar puntos.

4. ¿Qué lograron? (Los Resultados)

Al final del entrenamiento, la IA se volvió increíblemente buena en dos cosas:

Siguió siendo inteligente: No perdió su capacidad para hacer matemáticas, escribir código o seguir instrucciones (como un atleta que entrena para ser más fuerte sin dejar de ser rápido).
Se volvió un experto en resolver conflictos: Cuando se le presenta un problema difícil donde dos valores chocan, ya no da respuestas aburridas o evasivas. En su lugar, ofrece soluciones concretas y creativas que respetan a todas las partes.

En resumen:

Imagina que antes, la IA era como un abogado que solo defendía una postura. Ahora, gracias a este entrenamiento de negociación, la IA se ha convertido en un diplomático experto. Sabe que en la vida real, las respuestas raras veces son blancas o negras; a veces hay que encontrar el "tercer camino" donde todos puedan avanzar juntos.

Este trabajo nos dice que para que las IAs sean útiles en un mundo con muchas opiniones diferentes, no debemos solo decirles "qué hacer", sino enseñarles cómo conversar y llegar a acuerdos.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs" en español.

1. Planteamiento del Problema

El alineamiento de los Modelos de Lenguaje Grandes (LLM) ha avanzado significativamente en entornos de agente único mediante paradigmas como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) y la IA Constitucional. Sin embargo, estos enfoques presentan limitaciones críticas:

Objetivos Estáticos: Suelen optimizar objetivos fijos (como ser útil, honesto e inofensivo) que pueden ser vulnerables a la generalización incorrecta de recompensas o comportamientos estratégicos superficiales.
Falta de Contexto Multi-Agente: La mayoría de los métodos no abordan entornos donde interactúan múltiples partes con intereses diversos y a menudo conflictivos. En estos escenarios, la simple optimización de un objetivo único es insuficiente; se requiere deliberación y negociación.
Déficit en Resolución de Conflictos: Incluso con objetivos dinámicos como la "Agencia Colectiva" (CA), los modelos de agente único tienden a producir respuestas abstractas o no convergentes cuando surgen desacuerdos, fallando en sintetizar soluciones mutuamente beneficiosas.

El objetivo de este trabajo es desarrollar un marco de alineamiento escalable que mejore la capacidad de los LLMs para resolver conflictos de valores mediante la negociación estructurada, alineándolos simultáneamente con el objetivo de Agencia Colectiva (CA).

2. Metodología

Los autores proponen un marco de alineamiento basado en negociación multi-agente que integra el aprendizaje por refuerzo con un bucle de interacción deliberativa.

A. Configuración del Entorno de Negociación

Auto-Juego (Self-Play): Se utilizan dos instancias del mismo modelo de política ( $\pi_\theta$ ). Una es entrenable y la otra es una copia congelada del modelo en la iteración actual.
Personas Adversarias: Se asignan "personas" (objetivos intrínsecos) opuestas a cada agente (ej. "minimizar costos" vs. "maximizar calidad"). Se construyó un currículum de 1,100 dilemas éticos y 25 pares de personas adversarias.
Fases del Proceso:
1. Fase de Negociación: Los agentes interactúan en un diálogo por turnos para proponer soluciones y llegar a un acuerdo. Se evalúa en cada turno si se ha alcanzado un plan accionable y mutuamente aceptable.
2. Generación de Conclusión Final: Tras la negociación (o al alcanzar el límite de turnos), el agente 1 genera una respuesta final que resume la resolución.

B. Entrenamiento y Optimización (GRPO)

El modelo se optimiza utilizando GRPO (Group Relative Policy Optimization), una variante del Aprendizaje por Refuerzo que no requiere un modelo de valor crítico separado.

Recompensas:
- Si la negociación fracasa (no hay acuerdo), la recompensa es 0.
- Si hay acuerdo, un modelo de lenguaje externo (LLM Judge) asigna una puntuación de Agencia Colectiva (CA) de 0 a 5 a la conclusión final.
Normalización Relativa de Grupo: Se generan múltiples trayectorias de negociación para el mismo prompt. Las ventajas se calculan normalizando las recompensas dentro del grupo ( $\hat{A}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r) + \epsilon}$ ). Esto prioriza las trayectorias de negociación de mayor calidad relativa.
Actualización de Gradientes: Un aspecto clave es que los gradientes se aplican a los tokens del diálogo (la interacción), no solo a la conclusión final. Esto entrena directamente la dinámica de negociación y la capacidad de deliberación, en lugar de solo la capacidad de resumen.
Sin Penalización KL: Se establece $\beta=0$ para permitir una mayor exploración durante el entrenamiento.

3. Contribuciones Clave

Marco de Negociación Multi-Agente Escalable: Demuestra que es posible entrenar LLMs para la resolución de conflictos de valores utilizando auto-juego y retroalimentación de IA (RLAIF), sin necesidad de anotación humana masiva.
Alineamiento con Agencia Colectiva (CA) en Conflictos: Extiende el concepto de CA (que incluye conocimiento, benevolencia, poder y vitalidad) a escenarios multi-agente explícitos, donde el objetivo es sintetizar perspectivas opuestas en lugar de simplemente satisfacer un criterio estático.
Mecanismo de Aprendizaje por Tokens de Diálogo: Al optimizar los tokens de la interacción en lugar de solo el resultado final, el modelo aprende dinámicas de negociación efectivas (compromiso, síntesis, empatía) que son transferibles a la resolución de problemas.
Curriculum Sintético de Dilemas: Creación de un conjunto de datos diverso con 1,100 dilemas morales y 25 pares de personas adversarias para exponer sistemáticamente al modelo a tensiones de valores.

4. Resultados Experimentales

El modelo propuesto (Multi-Agent Aligned) se evaluó frente a un modelo base (Qwen3-14B) y un modelo alineado de agente único (Single-Agent CA).

Resolución de Conflictos:
- El modelo multi-agente superó significativamente al modelo de agente único y al modelo base en tareas de resolución de conflictos.
- Tasa de Acuerdo: Aumentó del ~91% al ~97%.
- Eficiencia: El número promedio de rondas para llegar a un acuerdo disminuyó de ~2.3 a ~1.9.
- Calidad: En comparaciones pareadas, el modelo multi-agente fue preferido en la mayoría de los casos por ofrecer soluciones más concretas, accionables y mutuamente consistentes.
Alineamiento CA:
- Logró un nivel de alineación con CA comparable al modelo de agente único en tareas de negociación, demostrando que la negociación no degrada el alineamiento dinámico.
- En tareas de preguntas abiertas (sin negociación explícita), mostró mejoras marginales, sugiriendo que la generalización fuera del contexto de negociación requiere más refinamiento.
Capacidades Generales:
- El modelo mantuvo su rendimiento en benchmarks generales (IFEval, AIME, GPQA), demostrando que el entrenamiento de negociación no degrada las capacidades lingüísticas o de razonamiento general.
Análisis de Decodificación:
- Las mejoras fueron más pronunciadas con decodificación estocástica (muestreo) que con codiciosa (greedy), lo que indica que el entrenamiento aumenta la consistencia en la generación de respuestas de alta calidad a través de diversas trayectorias.

5. Significado e Impacto

Este trabajo representa un paso importante hacia la creación de LLMs capaces de operar en sociedades multi-actor donde los intereses chocan.

Más allá de la Seguridad Estática: Mueve el paradigma de "harmlessness" (no hacer daño) hacia la capacidad activa de deliberar y sintetizar valores contradictorios, lo cual es esencial para la toma de decisiones colectivas.
Inteligencia Colectiva: Proporciona una base técnica para sistemas que pueden facilitar la inteligencia colectiva humana, actuando como mediadores que no solo imponen reglas, sino que negocian soluciones óptimas para todos los involucrados.
Escalabilidad: Al utilizar auto-juego y evaluadores de IA, el método es escalable y no depende de la costosa anotación humana para cada escenario de conflicto.

En conclusión, el entrenamiento mediante negociación estructurada ofrece un camino práctico para desarrollar LLMs que no solo siguen instrucciones, sino que poseen la capacidad de navegar, entender y resolver conflictos de valores complejos en entornos reales.

Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

1. El Problema: El "Niño Solitario" vs. El "Equipo de Debate"

2. La Meta: "Agencia Colectiva" (El Superpoder de Crecer Juntos)

3. Cómo se entrena (El Gimnasio de la Negociación)

4. ¿Qué lograron? (Los Resultados)

En resumen:

1. Planteamiento del Problema

2. Metodología

A. Configuración del Entorno de Negociación

B. Entrenamiento y Optimización (GRPO)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models