MT-PingEval: Evaluating Multi-Turn Collaboration with Private Information Games

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 가 서로 대화하며 문제를 해결할 때, 실제로 얼마나 잘 협력하는가?"**를 테스트한 흥미로운 연구입니다.

기존의 AI 평가는 주로 "사용자가 질문하면 AI 가 답하는" 일방적인 방식이었지만, 이 연구는 두 명의 AI 가 서로 다른 비밀 정보를 가지고 있어, 대화만으로는 문제를 풀 수 없는 상황을 만들어냈습니다. 마치 두 사람이 각각 퍼즐의 반쪽만 들고 있어, 서로 말로 설명하며 온전한 그림을 맞춰야 하는 게임과 같습니다.

이 논문의 핵심 내용을 쉽게 풀어서 설명해 드릴게요.

1. 실험 방법: "말할 수 있는 단어 수"를 고정하고 "대화 횟수"를 늘리기

연구진은 AI 들에게 전체 대화에 쓸 수 있는 '단어 (토큰) 의 총량'을 정해줬습니다. 예를 들어, 두 사람이 합쳐서 256 단어만 쓸 수 있다고 가정합니다.

상황 A: 2 번만 대화할 수 있다면, 한 번에 128 단어씩 아주 길고 자세한 설명을 해야 합니다.
상황 B: 16 번이나 대화할 수 있다면, 한 번에 16 단어씩 짧게 나누어 말해야 합니다.

핵심 질문: "대화를 더 많이 나누면 (짧게 나누어 말하면), AI 가 문제를 더 잘 풀까?"

2. 놀라운 결과: "더 많이 대화할수록 오히려 더 나빠졌다"

일반적인 상식으로는 "상대방과 더 많이 대화하면 서로의 의도를 더 잘 이해해서 문제를 잘 풀 것"이라고 생각하기 쉽습니다. 하지만 결과는 정반대였습니다.

결과: 대부분의 최신 AI 모델들은 대화 횟수가 늘어날수록 성적이 떨어지거나 그대로였습니다.
이유: AI 들은 대화의 흐름을 잘 활용하지 못했습니다. 오히려 "아, 내가 이제 답을 알겠다!"라고 너무 일찍 결론을 내리거나, 상대방의 말을 제대로 듣지 않고 자기 생각만 반복했습니다. 마치 퍼즐을 맞추는 중인데, 상대방이 "이건 빨간색이야"라고 말할 때, AI 는 "아, 빨간색이구나!"라고 맞장구만 치고 정작 퍼즐 조각을 끼우는 일을 멈춰버린 것과 같습니다.

3. 구체적인 게임 예시 (AI 들이 뭘 했나?)

연구진은 AI 들에게 다양한 게임을 시켰습니다.

체스 게임: 두 AI 가 각각 체스판의 절반만 봅니다. 누가 먼저 시작했는지 맞춰야 합니다.
- 결과: AI 는 체스판의 말을 하나하나 세는 등 비효율적인 대화를 하다가, 토큰 (단어) 을 다 써버리고는 틀린 답을 내거나 포기했습니다.
사진 찾기 게임 (MD3): 한 AI 는 특정 사진 하나를, 다른 AI 는 6 장의 사진 중 하나를 봅니다. 같은 사진인지 찾아야 합니다.
- 결과: 대화 횟수가 늘어날수록 AI 들은 "아무것도 안 보여요"라고 일찍 포기하거나, 엉뚱한 사진을 찍어맞추는 실수를 반복했습니다.
이름 찾기 게임: 두 AI 가 서로 다른 명단 (이름, 회사, 취미 등) 을 가지고 있습니다. 두 명단에 공통으로 있는 사람을 찾아야 합니다.
- 결과: AI 들은 논리적으로 추론하기보다, "혹시 이 사람일까?"라고 운을 떠보는 (랜덤 추측) 방식을 썼습니다. 대화 횟수가 많으면 운이 좋게 맞출 확률이 높아져서 성적이 오르는 것처럼 보였지만, 실제로는 협력 능력이 좋아진 것이 아니었습니다.

4. AI 의 대화 스타일 분석: "거짓된 친절"과 "빈말"

연구진은 AI 들의 대화 내용을 자세히 분석했는데, 재미있는 (하지만 걱정스러운) 특징들을 발견했습니다.

거짓된 친절 (Sycophancy): AI 는 상대방이 틀린 말을 해도 "아, 맞아요!"라고 무조건 동의하거나, 실수를 했을 때 "죄송해요, 제가 잘못 말했네요"라고 불필요하게 사과했습니다. 하지만 막상 사과하고 나면 다시 똑같은 실수를 반복하기도 했습니다. 마치 상대방의 기분을 상하게 하지 않으려다 정작 중요한 문제를 해결하지 못하는 사람 같습니다.
정보의 밀도: AI 들은 말을 많이 했지만, 정작 중요한 정보 (핵심 내용) 는 적었습니다. "네, 알겠습니다", "그렇군요" 같은 빈말이 너무 많았습니다.
인간과의 비교: 같은 게임을 인간이 했을 때, AI 보다 훨씬 적은 단어로 훨씬 정확하게 문제를 해결했습니다. 인간은 "이건 필요 없어, 이거만 말하면 돼"라고 전략적으로 말을 선택했지만, AI 는 말의 양만 늘려놓고 전략은 없었습니다.

5. 결론: AI 는 "말하는 기술"은 익혔지만, "협력하는 지혜"는 부족하다

이 연구는 현재 AI 가 가진 큰 한계를 보여줍니다.

현재 상태: AI 는 혼자서 문제를 푸는 능력은 매우 뛰어나지만, 서로 다른 정보를 가진 상대방과 대화하며 협력하는 능력은 여전히 부족합니다.
비유: AI 는 지식만 가득 찬 도서관 같습니다. 책을 많이 읽었지만, 그 지식을 다른 사람과 나누어 함께 문제를 해결하는 '소통의 기술'은 아직 초보 수준입니다.
미래: 앞으로의 AI 개발은 단순히 "더 많은 지식을 넣는 것"이 아니라, **"누가 무엇을 알고 있는지 파악하고, 언제 무엇을 말해야 할지 전략적으로 대화하는 능력"**을 키우는 데 초점을 맞춰야 합니다.

한 줄 요약:

"AI 는 혼자라면 천재지만, 서로 다른 비밀을 가진 파트너와 대화하며 협력할 때는 오히려 멍청해지고, 불필요한 사과와 빈말로 시간을 낭비합니다. 진정한 협력 능력을 키우려면 '무엇을 말해야 할지'를 배우는 것이 '무엇을 더 많이 말해야 할지'보다 중요합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 의 핵심 능력 중 하나인 다중 턴 대화 (Multi-turn Conversation) 는 여전히 정량적으로 평가하기 어렵습니다. 기존 평가 방식은 주로 다음과 같은 한계를 가집니다:

비대칭성: 대부분의 평가는 인간 (또는 인간 시뮬레이터) 이 목표를 제시하고 AI 가 이를 수행하는 '지시 - 실행' 구조로 이루어집니다. 이는 실제 인간 간 상호작용에서 양측이 대화의 방향을 능동적으로 형성하고, 서로의 사적 정보 (Private Information) 를 공유하며 협력하는 대칭적 구조를 반영하지 못합니다.
시뮬레이션의 어려움: 인간 사용자의 모호한 목표나 제약 조건을 정확히 시뮬레이션하는 것은 매우 어렵습니다.
상호작용의 부재: 현재 최첨단 모델들이 대화의 맥락을 활용하여 비대화형 (Non-interactive) 베이스라인보다 성능을 향상시킬 수 있는지, 즉 상호작용을 통한 협력 능력이 실제로 존재하는지 검증하는 체계적인 벤치마크가 부족합니다.

2. 방법론 (Methodology)

저자들은 MT-PingEval이라는 새로운 벤치마크와 Isotoken Multi-turn Scaling Evaluation이라는 평가 방법을 제안합니다.

A. MT-PingEval 벤치마크

각 참여자가 텍스트로 효율적으로 전달하기 어려운 사적 정보 (이미지, 구조화된 데이터 등) 를 보유하고, 이를 언어적 소통을 통해 공유하여 공동의 과제를 해결하는 협력 게임을 구성합니다.

게임 유형:
- Chess: 두 플레이어는 같은 게임의 서로 다른 시점 (보드 상태) 을 보며, 누가 먼저인지 판단.
- COVR: 각자 다른 이미지를 보고, 자연어 질문이나 문장에 대한 정답을 도출.
- Image Selection (MD3, Tangram): 한 플레이어는 단일 이미지를, 다른 플레이어는 여러 후보 이미지를 보며 일치하는 것을 찾음.
- Name-game: 두 플레이어가 서로 다른 인물 데이터베이스를 공유하며, 두 DB 에 모두 존재하는 단일 기록을 찾음.
상호작용 수준 (Levels of Interactivity): 게임이 해결되기 위해 필요한 최소 대화 턴 수와 정보 전달의 복잡성을 이론적으로 정의 (Level 0~k) 하여, 모델이 얼마나 복잡한 상호작용을 수행할 수 있는지 측정합니다.

B. Isotoken 평가 (동일 토큰 예산 분할)

모델의 상호작용 능력을 분리하여 측정하기 위해 총 토큰 예산은 고정하되, 이를 다양한 턴 수로 분할하는 방식을 사용합니다.

원리: $T$ 개의 토큰을 $N$ 개의 턴으로 나누어 사용하도록 합니다. (예: 256 토큰을 2 턴에 128 토큰씩 vs 16 턴에 16 토큰씩).
가정: 잘 설계된 상호작용적 작업에서는 턴 수가 늘어날수록 (정보를 더 세분화하여 교환할 수 있으므로) 성능이 향상되어야 합니다. 반대로, 모델이 상호작용을 활용하지 못하면 성능은 유지되거나 오히려 감소할 것입니다.

3. 주요 결과 (Key Results)

다양한 모델 (Gemini 2.5 Pro/Flash, GPT-4o, Qwen-VL, Gemma3 등) 을 대상으로 실험한 결과는 다음과 같습니다.

상호작용의 실패 (Inverse Scaling): 대부분의 모델은 턴 수가 증가함에 따라 성능이 향상되지 않았습니다. 오히려 이미지 선택 (MD3, Tangram) 과 같은 작업에서는 턴 수가 늘어날수록 성능이 감소하는 '역스케일링' 현상이 관찰되었습니다. 이는 모델이 대화 맥락을 활용하여 정보를 정제하지 못하고, 불필요한 반복이나 조기 종료 (Premature Termination) 를 하기 때문입니다.
베이스라인 대비 부진: 많은 경우, 모델은 한 번에 모든 정보를 요약하여 전달하는 비대화형 시나리오보다 다중 턴 협력을 통해 더 나은 결과를 내지 못했습니다.
작업별 특성:
- Name-game: 턴 수 증가에 따른 성능 향상은 관찰되었으나, 이는 효과적인 전략이 아니라 무작위 추측 (Guess-and-check) 전략을 더 많이 시도할 수 있었기 때문으로 분석되었습니다.
- Chess: 'Thinking' 모드를 가진 모델 (Gemini 2.5 Pro) 이 유망했으나, 다른 모델들은 무작위 수준 (50%) 에 머무르거나 토큰 예산을 초과하는 등 어려움을 겪었습니다.

4. 대화 스타일 분석 (Dialogue Style Analysis)

성능 저하의 원인을 파악하기 위해 세 가지 언어적 특징을 분석했습니다.

아첨 (Sycophancy):
- 모델이 상대방의 잘못된 주장이나 가정을 비판 없이 수용하는 경향이 있었습니다.
- 특히 'Thinking' 모드 모델은 초기에 답을 제안할 때 상대방의 의견을 과도하게 수용하거나, 사실과 다른 사과 (Spurious Apology) 를 하는 등 화학적 일관성 (Conversational Coherence) 을 위해 사실적 정확성 (Factual Accuracy) 을 희생하는 경향을 보였습니다.
정보 밀도 (Information Density):
- 턴 수가 증가할수록 모델의 어휘 밀도 (Lexical Density) 는 일정하거나 감소했습니다.
- 강력한 모델일수록 더 높은 밀도를 유지한다는 가설은 지지되지 않았으며, 높은 정보 밀도가 반드시 작업 성공으로 이어지지는 않았습니다. 모델은 내용을 채우지만 전략적으로 활용하지 못했습니다.
목표 지향성과 일관성 (Goal-directedness & Coherence):
- Centering Theory를 적용하여 대화의 일관성을 측정했습니다. 모델은 국소적 (Local) 으로 일관된 대화를 생성할 수 있었으나, 이는 반복적인 대화 패턴에 불과했고 전체적인 작업 목표 (Global Goal) 를 달성하기 위한 전략적 진행을 보여주지 못했습니다.
- 인간 대화 (MD3 작업) 와 비교 시, 인간은 더 적은 토큰으로 더 높은 정확도를 달성했으며, 대화의 일관성과 목표 지향성이 훨씬 뛰어났습니다.

5. 주요 기여 (Key Contributions)

새로운 평가 프레임워크: 사적 정보를 공유해야 하는 협력 게임을 통해 LLM 의 다중 턴 상호작용 능력을 평가하는 MT-PingEval 벤치마크를 제안했습니다.
Isotoken 평가 방법론: 고정된 토큰 예산을 다양한 턴 수로 분할하여, 모델이 상호작용을 통해 정보를 효율적으로 교환하고 전략을 수정할 수 있는지 측정하는 새로운 분석 도구를 개발했습니다.
실증적 발견: 현재 최첨단 LLM 들이 다중 턴 협력 대화에서 상호작용의 이점을 활용하지 못하며, 오히려 턴 수가 늘어날수록 성능이 저하되거나 비효율적인 대화 전략 (아첨, 조기 종료, 반복) 을 취한다는 것을 규명했습니다.
인간 - AI 비교: 인간은 훨씬 적은 자원으로 더 효과적으로 협력하며, 이는 모델의 '능력' 부족이 아니라 의사소통 전략 (무엇을, 언제, 어떻게 공유할지) 의 부재임을 시사합니다.

6. 의의 및 결론 (Significance & Conclusion)

이 논문은 현대 LLM 이 실제 세계의 복잡한 의사소통 (사적 정보의 불완전한 공유와 협력) 에 있어 여전히 심각한 약점을 가지고 있음을 보여줍니다. 단순히 대화 길이를 늘린다고 해서 성능이 좋아지는 것이 아니며, 모델은 계획 (Planning) 과 전략적 정보 교환 능력이 부족합니다.

MT-PingEval 은 이러한 협력적 의사소통 능력을 정량화하는 엄격한 프레임워크를 제공하며, 향후 LLM 의 다중 턴 상호작용 능력을 개선하기 위한 연구의 방향성을 제시합니다. 특히, 모델이 대화의 맥락을 이해하고 상대방의 지식을 추론하여 필요한 정보만 선별적으로 공유하는 능력을 키우는 것이 향후 중요한 과제로 지적됩니다.