Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

이 논문은 상반된 페르소나를 가진 두 개의 LLM 이 구조화된 협상 대화를 통해 상호 이익을 도모하는 방식으로 훈련함으로써, 가치 충돌 상황에서 집단적 에이전시 (Collective Agency) 정렬을 유지하면서도 갈등 해결 능력을 획기적으로 향상시키는 새로운 다중 에이전트 정렬 프레임워크를 제안합니다.

Panatchakorn Anantaprayoon, Nataliia Babina, Nima Asgharbeygi, Jad Tarifi

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"인공지능 (AI) 이 서로 다른 의견을 가진 사람들과 어떻게 대화하며 합의점을 찾는지"**를 연구한 내용입니다.

기존의 AI 는 "정답"을 하나만 찾아내는 데 익숙했지만, 현실 세계에서는 사람마다 가치관이 달라서 상충되는 의견이 생기기 마련입니다. 이 논문은 AI 가 그런 복잡한 상황에서도 서로 싸우지 않고, **협상 (Negotiation)**을 통해 모두 만족할 수 있는 해결책을 찾아내도록 가르치는 새로운 방법을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "나만 옳다"는 AI 의 한계

기존의 AI 는 마치 외로운 명상가처럼 훈련됩니다. "착한 일만 하라", "정직하라"는 하나의 규칙만 외워서 행동합니다. 하지만 현실은 다릅니다.

  • 상황: 병원에서 산소 호흡기가 하나 남았는데, 한쪽은 젊은 부모, 다른 쪽은 세상을 구할 수 있는 노과학자가 필요합니다.
  • 기존 AI 의 반응: "누가 더 가치 있는 사람인가?"를 계산해서 한쪽을 선택합니다. 하지만 이는 갈등을 해결한 것이 아니라, 단순히 한쪽을 희생시킨 것입니다.

2. 해결책: "AI 토너먼트"와 역할극

이 논문은 AI 를 혼자 명상하는 대신, 토론 동아리에 넣었습니다.

  • 비유: 두 명의 AI 가 한 팀이 되어 **역할극 (Role-play)**을 합니다.
    • AI A: "환자의 비밀을 지켜야 한다!" (의사 윤리)
    • AI B: "무죄인 사람을 구해야 한다!" (사회 정의)
  • 이 두 AI 는 서로 다른 목소리를 내며 대화를 나눕니다. 처음에는 서로 대립하지만, 대화를 이어가며 "어떻게 하면 두 마리 토끼를 다 잡을 수 있을까?"를 고민합니다.

3. 훈련 방법: "스스로와 싸우는 게임"

이 훈련은 **스스로와 대결하는 게임 (Self-play)**으로 이루어집니다.

  • 게임 규칙: 두 AI 는 같은 뇌 (모델) 에서 나온 쌍둥이입니다. 하지만 서로 다른 '성격 (페르소나)'을 부여받습니다.
  • 목표: 서로 싸우는 게 아니라, 서로가 만족할 수 있는 합의점을 찾아내야 합니다.
  • 심판: 외부의 AI 심판이 "이 대화에서 합의가 이루어졌는가?", "이 해결책이 모두에게 도움이 되는가?"를 점수화합니다.
    • 합의가 안 되면 점수 0 점 (패배).
    • 창의적이고 모두에게 좋은 해결책을 찾으면 점수 5 점 (승리).

이 과정을 수천 번 반복하면서 AI 는 **"싸우는 법"이 아니라 "협상하는 법"**을 배우게 됩니다. 마치 마라톤 선수가 혼자 달리는 게 아니라, 팀 스포츠를 하며 상대방의 움직임을 읽고 협력하는 법을 익히는 것과 같습니다.

4. 핵심 개념: "집단적 주체성 (Collective Agency)"

이 논문에서 강조하는 목표는 **'집단적 주체성'**입니다.

  • 비유: 마치 오케스트라를 생각해보세요.
    • 기존 AI 는 바이올린 소리만 크게 내는 것 같습니다.
    • 이 논문이 만든 AI 는 지휘자처럼 각 악기 (서로 다른 가치관) 가 조화를 이루며 더 아름다운 음악을 만들어내는 것을 목표로 합니다.
    • 단순히 한쪽이 이기는 게 아니라, 모두의 역량이 함께 확장되는 방향으로 해결책을 찾습니다.

5. 결과: 더 똑똑해진 AI

실험 결과, 이 방법으로 훈련된 AI 는 다음과 같은 변화를 보였습니다.

  1. 갈등 해결 능력 향상: 서로 다른 의견을 가진 사람들과 대화할 때, 더 빠르고 현실적인 합의점을 찾습니다. (예: "비밀은 지키되, 자발적으로 진실을 밝히도록 유도하자" 같은 창의적인 해결책)
  2. 일반적인 능력 유지: 협상만 잘하는 게 아니라, 수학 문제나 일반 질문을 풀 때도 기존 AI 만큼 똑똑합니다. (협상 훈련이 다른 능력을 망가뜨리지 않음)
  3. 안정성: 무작위적으로 대화할 때 (다양한 시나리오) 도 좋은 결과를 내는 경우가 많아졌습니다.

요약

이 논문은 **"AI 에게 '정답' 하나만 외우게 하는 게 아니라, '다양한 의견'을 조율하는 협상 능력을 가르쳤다"**는 이야기입니다.

앞으로 AI 는 우리가 서로 다른 의견을 가지고 있을 때, 단순히 "누가 옳다"고 판단하는 대신, **"우리가 어떻게 함께 해결할 수 있을까?"**를 고민하는 현명한 중재자가 될 수 있을 것입니다. 마치 현명한 중재자가 두 명의 싸우는 친구를 진정시키고, 서로의 마음을 이해하게 만들어 새로운 친구 관계를 맺게 하는 것처럼요.