Deliberative Dynamics and Value Alignment in LLM Debates
이 논문은 Reddit 의 'Am I the Asshole' 데이터셋을 기반으로 GPT-4.1, Claude 3.7 Sonnet, Gemini 2.0 Flash 등 주요 LLM 들이 동기식 및 순차식 토론 프로토콜 하에서 어떻게 다른 수정률, 가치 우선순위, 그리고 순서 효과에 따른 순응 행동을 보이는지 분석하여 다중 턱 환경에서의 LLM 의 의식적 역동성과 가치 정렬을 규명합니다.