Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"복잡한 문제를 해결할 때, 혼자서 깊이 생각한 한 명의 천재가 여러 명이 모여 토론하는 팀보다 더 잘할 수 있다"**는 놀라운 사실을 밝혀낸 연구입니다.

기존에는 "여러 AI 에이전트 (Multi-Agent) 가 서로 대화하며 문제를 나누어 해결하면 더 똑똑해질 것"이라는 믿음이 강했습니다. 하지만 이 연구는 **"그게 아니라, 단순히 '생각하는 시간 (비용)'을 더 많이 썼기 때문에 잘한 것일 뿐"**이라고 지적합니다.

이 논문의 핵심 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 비유: "혼자서 독서하는 천재" vs "회의실의 토론 팀"

이 연구를 이해하기 위해 두 가지 상황을 상상해 보세요.

상황 A (단일 에이전트, SAS): 한 명의 천재가 1 시간 동안 조용히 책상 앞에 앉아, 모든 정보를 읽고 깊이 있게 생각한 뒤 답을 냅니다.
상황 B (다중 에이전트, MAS): 5 명의 전문가가 모여 합계 1 시간의 시간을 쪼개서 문제를 해결합니다. (예: 1 번이 10 분, 2 번이 10 분... 서로 말하고, 요약하고, 비판합니다.)

기존의 오해:
많은 사람들이 "5 명이서 서로 의견을 나누면 (토론), 1 명이 혼자 생각하는 것보다 더 좋은 답이 나올 거야!"라고 생각했습니다. 그래서 팀을 꾸리고 서로 대화하게 했죠.

이 연구의 발견:
하지만 연구진은 "1 시간이라는 총 생각 시간 (비용) 을 똑같이 줬을 때" 두 방법을 비교했습니다. 결과는 놀라웠습니다.

"혼자서 1 시간 동안 깊이 생각한 천재 (SAS) 가, 5 명이서 1 시간 동안 떠들고 요약한 팀 (MAS) 보다 더 정확하고 빠른 답을 냈다."

왜일까요?

정보 손실: 팀이 일할 때는 서로 말하고 요약하는 과정에서 중요한 정보가 빠지거나 왜곡될 수 있습니다 (논문에서는 '정보 처리 부등식'이라는 이론으로 설명합니다).
소모적 비용: 팀원들이 서로에게 "이거 뭐야?", "내 생각은 이래"라고 말하는 데 에너지를 써버려, 정작 문제를 푸는 데 쓸 시간이 줄어듭니다.

2. 언제 팀이 이길까요? (예외 상황)

그렇다면 팀은 쓸모없는 걸까요? 아닙니다. 연구진은 팀이 이길 수 있는 특수한 상황도 찾아냈습니다.

비유: 만약 천재가 독서할 때 눈이 가려지거나 (정보 손상), 주변에 소음과 방해꾼들이 너무 많아서 (노이즈) 집중을 못 한다면요?
해결책: 이때는 팀이 유리합니다. 팀원 A 는 소음을 차단하고, 팀원 B 는 중요한 부분만 찾아내고, 팀원 C 는 오류를 체크합니다.
결론: 정보가 너무 길고 복잡해서 한 사람이 다 기억하거나 이해하기 어려울 때, 혹은 정보가 엉망으로 섞여 있을 때만 다중 에이전트 시스템이 빛을 발합니다.

3. 연구진이 발견한 '속임수'들

이 논문은 단순히 "혼자 하는 게 낫다"고 말하는 것을 넘어, 왜 그동안 팀이 더 잘하는 것처럼 보였는지 그 속임수를 폭로했습니다.

계산 착각 (API 의 속임수):
- 클라우드 API 를 쓸 때, "10,000 토큰 (단어) 만큼 생각하라"고 요청했는데, 실제로는 그보다 훨씬 적은 분량만 생각한 채로 "10,000 토큰 썼다"고 보고하는 경우가 있었습니다.
- 마치 식당에서 "10,000 원짜리 코스"를 시켰는데, 실제로는 3,000 원짜리 음식만 나오고 "10,000 원 썼다"는 영수증을 주는 것과 비슷합니다. 팀 방식이 더 많은 '보여지는 생각'을 만들어내서 더 똑똑해 보였을 뿐, 실제 계산량은 비슷하거나 오히려 적었을 수 있습니다.
문제 기억하기 (암기):
- 기존 시험 문제들이 너무 유명해서 AI 가 문제를 풀기보다, 이미 답을 외워서 맞추는 경우가 많았습니다. 문제를 살짝 바꿔서 (패러프레이징) 다시 물어보니, 팀 방식은 급격히 떨어졌지만, 혼자 깊이 생각한 천재는 여전히 잘 풀었습니다.

4. 요약: 우리에게 주는 교훈

이 논문의 결론은 매우 명확합니다.

"AI 를 더 똑똑하게 만들고 싶다면, 무조건 팀을 꾸려서 서로 대화하게 하는 게 답이 아닙니다. 대신, 한 명의 AI 가 가진 '생각할 시간 (비용)'을 충분히 주고, 그 시간을 방해받지 않고 집중하게 하는 것이 훨씬 효율적입니다."

한 줄 요약:
복잡한 문제를 풀 때, 10 명이서 1 시간 동안 떠드는 것보다, 1 명이 1 시간 동안 조용히 깊이 생각하는 게 더 똑똑할 수 있습니다. 다만, 정보가 너무 지저분하거나 혼란스러울 때는 팀워크가 필요하죠.

이 연구는 앞으로 AI 시스템을 설계할 때, "팀을 더 많이 만들자"가 아니라 **"어떻게 하면 한 AI 가 주어진 시간 안에 더 집중하게 할까?"**를 고민해야 함을 시사합니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

최근 멀티 에이전트 시스템 (MAS, Multi-Agent Systems) 은 다양한 작업에서 강력한 성능을 보인다고 보고되고 있습니다. 그러나 이러한 성능 향상은 종종 **테스트 시간 계산량 (test-time computation)**의 증가와 혼동되어 왔습니다. MAS 는 일반적으로 여러 에이전트 간의 상호작용이나 긴 추론 경로를 통해 더 많은 토큰을 소비하므로, 성능 향상이 아키텍처의 본질적인 이점인지, 아니면 단순히 더 많은 계산 자원을 사용했기 때문인지 명확하지 않았습니다.

기존 연구들은 계산량을 정규화했을 때 단일 에이전트 시스템 (SAS, Single-Agent Systems) 이 MAS 를 따라잡거나 능가할 수 있음을 시사하지만, 이에 대한 이론적 근거와 엄격한 평가 방법론은 부족했습니다. 본 논문은 고정된 '사고 토큰 (thinking tokens)' 예산 하에서 SAS 와 MAS 의 성능을 비교하여, 진정한 아키텍처적 우위가 존재하는지 규명하고자 합니다.

2. 방법론 (Methodology)

2.1 이론적 근거: 정보 이론적 접근

저자는 **데이터 처리 부등식 (Data Processing Inequality, DPI)**에 기반한 정보 이론적 논증을 제시합니다.

핵심 논리: 단일 에이전트는 전체 컨텍스트 $C$ 에 직접 접근하지만, 멀티 에이전트 시스템은 에이전트 간 메시지 $M$ 을 통해 정보를 전달합니다. $M$ 은 $C$ 의 함수이므로, DPI 에 따라 $I(Y; C) \ge I(Y; M)$ 이 성립합니다. 즉, 멀티 에이전트 아키텍처는 추가적인 통신 병목 현상을 도입하여 정보 손실을 초래할 수 있으며, 이론적으로 단일 에이전트보다 더 나을 수 없습니다.
예외 조건: 단일 에이전트의 컨텍스트 활용도가 저하된 경우 (예: 긴 컨텍스트에서의 정보 손실, 노이즈) 나, 추가적인 계산 자원이 투입되는 경우에만 MAS 가 경쟁력이 있을 수 있다고 예측합니다.

2.2 실험 설계

모델: Qwen3, DeepSeek-R1-Distill-Llama, Gemini 2.5 (Flash/Pro) 등 3 가지 모델 계열.
데이터셋: FRAMES 와 MuSiQue(4-hop 질문) 와 같은 다중 홉 추론 작업.
통제 변수: **사고 토큰 예산 (Thinking Token Budget)**을 엄격하게 일치시킵니다. (프롬프트와 최종 답변은 제외하고, 중간 추론에 사용된 토큰 수만 통제).
비교 대상:
- SAS: 단일 호출로 전체 예산을 사용하여 추론.
- MAS: 5 가지 아키텍처 (Sequential, Subtask-parallel, Parallel-roles, Debate, Ensemble) 를 비교. 특히 Sequential MAS는 SAS 와 가장 유사한 직렬 추론 구조를 가지며, 중간 추론을 명시적인 메시지로 외부화한다는 점만 다릅니다.

2.3 진단 분석

API 기반 예산 제어의 왜곡 (특히 Gemini 모델에서 요청된 예산과 실제 출력된 사고 토큰 간의 불일치) 과 벤치마크의 취약점 (패러프레이징에 따른 성능 변화) 을 분석하기 위해 상세한 진단 실험을 수행했습니다.

3. 주요 기여 (Key Contributions)

이론적 통찰: 고정된 토큰 예산 하에서 멀티 에이전트 분해가 추가적인 통신 병목을 유발하여 정보 효율성이 낮아질 수 있음을 정보 이론적으로 증명했습니다.
엄격한 실증 비교: 여러 모델과 아키텍처를 대상으로 계산량을 정규화한 비교를 통해, 다중 홉 추론 작업에서 SAS 가 MAS 를 일관되게 능가하거나 동등한 성능을 보임을 입증했습니다.
평가 방법론의 진단: API 기반 예산 제어의 불일치, 벤치마크의 과적합 (메모리) 문제, 그리고 아키텍처별 실패 모드의 차이를 체계적으로 분석했습니다.

4. 주요 결과 (Results)

4.1 성능 비교

일관된 우세: 계산량이 정규화된 조건에서 SAS 는 모든 모델과 데이터셋에서 MAS 보다 성능이 좋거나 통계적으로 유의미하게 차이가 없었습니다.
예산 증가의 한계: 사고 토큰 예산을 늘려도 성능은 일정 수준에서 포화되거나 오히려 과도한 탐색 (over-exploration) 으로 인해 감소하는 경향을 보였습니다.
Gemini 모델 특이성: Gemini 2.5 모델의 경우, SAS-L(더 긴 사고를 유도하는 변형) 이 표준 SAS 보다 성능이 향상되는 경향을 보였으나, 이는 오픈소스 모델에서는 일관되지 않았습니다. 이는 Gemini 의 사고 채널이 기본적으로 충분히 활용되지 않았음을 시사합니다.
MAS 의 성과: Debate 아키텍처가 MAS 중에서는 가장 일관되게 좋은 성능을 보였으나, 여전히 SAS 를 능가하지는 못했습니다.

4.2 컨텍스트 저하 실험 (Context Degradation)

이론적 예측대로, 단일 에이전트의 컨텍스트 활용도가 심각하게 저하될 때 (예: 중요한 정보가 마스킹되거나 대체되는 경우) Sequential MAS 가 SAS 를 능가하거나 경쟁력 있는 성능을 보였습니다.
이는 MAS 가 컨텍스트가 길어서가 아니라, 단일 추론 경로가 노이즈나 잘못된 정보를 필터링하기 어려울 때 구조적 이점을 발휘함을 의미합니다.

4.3 평가 방법론의 문제점 발견

API 예산 왜곡: Gemini 모델의 경우, API 가 보고하는 사고 토큰 수와 실제로 생성된 텍스트의 길이가 크게 불일치했습니다 (예: 10k 예산 요청 시 실제 가시적 토큰은 350 수준). 이는 MAS 가 SAS 보다 더 많은 "보이는 사고"를 생성하는 것처럼 보이게 하여 성능 편향을 초래할 수 있습니다.
벤치마크 취약점: 질문을 단순하게 재문장 (Light Paraphrase) 하면 모델의 성능이 하락하는 등, 기존 벤치마크가 모델의 추론 능력보다는 문장 패턴 매칭에 의존할 가능성이 있음을 발견했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 멀티 에이전트 시스템의 성능 향상이 종종 **계산량 증가 (Compute)**와 컨텍스트 효과에 기인한 것이지, 아키텍처 자체의 본질적 우위 때문이 아님을 강력하게 시사합니다.

핵심 결론: 다중 홉 추론과 같은 복잡한 작업에서도, 계산 자원을 동등하게 통제할 경우 단일 에이전트 시스템 (SAS) 이 기본값으로 가장 강력하고 효율적인 선택입니다.
MAS 의 역할: MAS 는 단일 에이전트가 컨텍스트를 효과적으로 활용하지 못하거나 (예: 매우 긴 컨텍스트, 노이즈가 많은 환경), 추가적인 계산 자원을 투입할 수 있는 특정 regime 에서만 가치가 있습니다.
향후 방향: 연구자들은 MAS 의 이점을 주장할 때 계산량과 컨텍스트 활용도를 명시적으로 통제하고, 아키텍처적 이점과 계산량 증가 효과를 분리하여 평가해야 합니다.

요약하자면, "더 많은 에이전트"가 항상 "더 나은 추론"을 의미하는 것은 아니며, 제한된 자원 하에서는 단일 에이전트가 더 효율적이고 강력한 해결책이 될 수 있음을 입증한 중요한 연구입니다.