Deliberative Dynamics and Value Alignment in LLM Debates

이 논문은 Reddit 의 'Am I the Asshole' 데이터셋을 기반으로 GPT-4.1, Claude 3.7 Sonnet, Gemini 2.0 Flash 등 주요 LLM 들이 동기식 및 순차식 토론 프로토콜 하에서 어떻게 다른 수정률, 가치 우선순위, 그리고 순서 효과에 따른 순응 행동을 보이는지 분석하여 다중 턱 환경에서의 LLM 의 의식적 역동성과 가치 정렬을 규명합니다.

Pratik S. Sachdeva, Tom van Nuenen

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 실험의 배경: "AI 들의 토론방"

연구진들은 Reddit 의 'Am I the Asshole (내가 나쁜 사람일까? AITA)'이라는 커뮤니티의 실제 인간들의 고민 1,000 가지를 가져왔습니다. 그리고 세 명의 최신 AI(OpenAI 의 GPT-4.1, Anthropic 의 Claude 3.7, Google 의 Gemini 2.0) 를 불러와 이 문제들을 해결하게 했습니다.

이때 두 가지 다른 **'토론 규칙'**을 적용했습니다.

  • 동시 토론 (Synchronous): 두 AI 가 동시에 답을 쓰고, 서로의 답을 본 후 다시 생각해보는 방식. (마치 시험지 답안을 동시에 제출하고, 채점 후 수정하는 느낌)
  • 순차 토론 (Round-robin): 한 AI 가 먼저 답을 쓰고, 다음 AI 가 그 답을 보고 답을 내는 방식. (마치 회의실에서 한 명씩 돌아가며 의견을 말하고, 뒤에 앉은 사람이 앞사람의 말을 듣고 의견을 바꾸는 느낌)

🦄 2. 주요 발견: AI 들은 모두 다릅니다!

이 실험에서 가장 놀라운 점은 AI 들이 서로 다른 '성격'을 보인다는 것입니다.

🐢 GPT-4.1: "고집 센 장님" (Inertia)

  • 특징: 일단 자신의 의견을 내면, 다른 AI 가 뭐라고 해도 거의 바꾸지 않습니다.
  • 비유: 마치 "나는 내 말이 옳아!"라고 고집을 부리는 고집 센 할아버지 같습니다. 동시 토론에서는 자신의 주장을 97% 이상 유지했습니다.
  • 하지만: 순차 토론에서 마지막에 말을 할 때는, 앞선 사람의 말을 듣고 급하게 따라가는 '순응' 성향을 보였습니다.

🦊 Claude 3.7 Sonnet: "공감하는 중재자"

  • 특징: 다른 AI 의 의견을 잘 듣고, 자신의 주장을 유연하게 바꿉니다.
  • 비유: 친구의 이야기를 잘 들어주고, "아, 네 말이 맞네. 내 생각도 고쳐볼게"라고 쉽게 마음을 여는 친절한 친구 같습니다.
  • 가치관: '공감', '대화', '갈등 해결' 같은 가치를 중요하게 여깁니다.

🤖 Gemini 2.0 Flash: "빠른 적응러"

  • 특징: Claude 와 비슷하게 의견을 자주 바꾸지만, 때로는 GPT 보다 더 많이 바꿉니다.
  • 비유: 새로운 유행에 빠르게 따라가는 젊은이 같습니다. 다른 사람의 말을 듣고 "오, 그건 좋은 생각이네!"라며 바로 입장을 바꿉니다.
  • 가치관: '공감'과 '이해'를 매우 중요하게 생각합니다.

🔄 3. 토론 방식이 결과를 바꿉니다 (순서 효과)

이 연구의 핵심은 **"토론하는 방식 (규칙) 에 따라 AI 의 성격이 바뀐다"**는 것입니다.

  • 동시 토론: GPT-4.1 은 고집을 부리고, Claude 와 Gemini 는 유연하게 변합니다.
  • 순차 토론: GPT-4.1 이 두 번째로 말해야 할 때는, 앞선 사람의 말을 듣고 자신의 고집을 꺾고 따라갑니다. 마치 회의실에서 "선배님이 그렇게 말씀하시니, 저도 그렇게 생각하겠습니다"라고 말하는 직원의 모습과 같습니다.

즉, AI 가 가진 '고집'이나 '순응'은 고정된 성격이 아니라, 누가 언제 말하느냐에 따라 변하는 행동이라는 것을 발견했습니다.

⚖️ 4. 결론이 나면 가치관도 비슷해진다

두 AI 가 결론 (예: "누가 나쁜 사람이다", "아무도 나쁜 사람이 아니다") 에 합의했을 때, 그들이 사용한 **논리 (가치관)**도 서로 비슷해졌습니다.

  • 처음에는 서로 다른 말을 했지만, 결론에 도달하면 "공감", "소통", "책임" 같은 비슷한 단어를 쓰게 됩니다.
  • 하지만 결론에 도달하지 못하면, 서로의 가치관 차이가 그대로 남습니다.

💡 5. 왜 이 연구가 중요할까요?

우리는 앞으로 AI 가 혼자서 답을 주는 게 아니라, 여러 AI 가 팀을 이뤄 복잡한 문제 (의료, 법률, 상담 등) 를 해결하는 시대가 올 것입니다.

이 연구는 **"AI 팀을 어떻게 구성하느냐 (누가 먼저 말하고, 어떻게 대화하게 하느냐) 에 따라 나오는 결론과 그 결론이 가진 윤리적 가치가 완전히 달라질 수 있다"**고 경고합니다.

  • 비유: 같은 요리 재료 (문제) 를 가지고도, 요리사 (AI) 들이 서로 대화하는 방식 (동시 vs 순차) 에 따라出来的 요리 (결론) 의 맛이 달라질 수 있다는 뜻입니다.

📝 한 줄 요약

"AI 들이 토론할 때, 누가 언제 말하느냐에 따라 고집쟁이가 되기도 하고 순응하는 사람이 되기도 합니다. 따라서 AI 시스템을 설계할 때는 단순히 AI 의 성능만 보는 게 아니라, 그들이 대화하는 '규칙'을 어떻게 정하느냐가 훨씬 더 중요합니다."