Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

이 논문은 계산 예산을 동일하게 통제했을 때 다중 에이전트 시스템이 단일 에이전트 시스템보다 다단계 추론에서 우월하다는 주장은 실제론 계산량 증가나 컨텍스트 활용도 차이에서 기인한 것이며, 단일 에이전트 시스템이 정보 효율성 측면에서 더 우수함을 이론적·실험적으로 입증합니다.

Dat Tran, Douwe Kiela

게시일 2026-04-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"복잡한 문제를 해결할 때, 혼자서 깊이 생각한 한 명의 천재가 여러 명이 모여 토론하는 팀보다 더 잘할 수 있다"**는 놀라운 사실을 밝혀낸 연구입니다.

기존에는 "여러 AI 에이전트 (Multi-Agent) 가 서로 대화하며 문제를 나누어 해결하면 더 똑똑해질 것"이라는 믿음이 강했습니다. 하지만 이 연구는 **"그게 아니라, 단순히 '생각하는 시간 (비용)'을 더 많이 썼기 때문에 잘한 것일 뿐"**이라고 지적합니다.

이 논문의 핵심 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 핵심 비유: "혼자서 독서하는 천재" vs "회의실의 토론 팀"

이 연구를 이해하기 위해 두 가지 상황을 상상해 보세요.

  • 상황 A (단일 에이전트, SAS): 한 명의 천재가 1 시간 동안 조용히 책상 앞에 앉아, 모든 정보를 읽고 깊이 있게 생각한 뒤 답을 냅니다.
  • 상황 B (다중 에이전트, MAS): 5 명의 전문가가 모여 합계 1 시간의 시간을 쪼개서 문제를 해결합니다. (예: 1 번이 10 분, 2 번이 10 분... 서로 말하고, 요약하고, 비판합니다.)

기존의 오해:
많은 사람들이 "5 명이서 서로 의견을 나누면 (토론), 1 명이 혼자 생각하는 것보다 더 좋은 답이 나올 거야!"라고 생각했습니다. 그래서 팀을 꾸리고 서로 대화하게 했죠.

이 연구의 발견:
하지만 연구진은 "1 시간이라는 총 생각 시간 (비용) 을 똑같이 줬을 때" 두 방법을 비교했습니다. 결과는 놀라웠습니다.

"혼자서 1 시간 동안 깊이 생각한 천재 (SAS) 가, 5 명이서 1 시간 동안 떠들고 요약한 팀 (MAS) 보다 더 정확하고 빠른 답을 냈다."

왜일까요?

  • 정보 손실: 팀이 일할 때는 서로 말하고 요약하는 과정에서 중요한 정보가 빠지거나 왜곡될 수 있습니다 (논문에서는 '정보 처리 부등식'이라는 이론으로 설명합니다).
  • 소모적 비용: 팀원들이 서로에게 "이거 뭐야?", "내 생각은 이래"라고 말하는 데 에너지를 써버려, 정작 문제를 푸는 데 쓸 시간이 줄어듭니다.

2. 언제 팀이 이길까요? (예외 상황)

그렇다면 팀은 쓸모없는 걸까요? 아닙니다. 연구진은 팀이 이길 수 있는 특수한 상황도 찾아냈습니다.

  • 비유: 만약 천재가 독서할 때 눈이 가려지거나 (정보 손상), 주변에 소음과 방해꾼들이 너무 많아서 (노이즈) 집중을 못 한다면요?
  • 해결책: 이때는 팀이 유리합니다. 팀원 A 는 소음을 차단하고, 팀원 B 는 중요한 부분만 찾아내고, 팀원 C 는 오류를 체크합니다.
  • 결론: 정보가 너무 길고 복잡해서 한 사람이 다 기억하거나 이해하기 어려울 때, 혹은 정보가 엉망으로 섞여 있을 때만 다중 에이전트 시스템이 빛을 발합니다.

3. 연구진이 발견한 '속임수'들

이 논문은 단순히 "혼자 하는 게 낫다"고 말하는 것을 넘어, 왜 그동안 팀이 더 잘하는 것처럼 보였는지 그 속임수를 폭로했습니다.

  1. 계산 착각 (API 의 속임수):

    • 클라우드 API 를 쓸 때, "10,000 토큰 (단어) 만큼 생각하라"고 요청했는데, 실제로는 그보다 훨씬 적은 분량만 생각한 채로 "10,000 토큰 썼다"고 보고하는 경우가 있었습니다.
    • 마치 식당에서 "10,000 원짜리 코스"를 시켰는데, 실제로는 3,000 원짜리 음식만 나오고 "10,000 원 썼다"는 영수증을 주는 것과 비슷합니다. 팀 방식이 더 많은 '보여지는 생각'을 만들어내서 더 똑똑해 보였을 뿐, 실제 계산량은 비슷하거나 오히려 적었을 수 있습니다.
  2. 문제 기억하기 (암기):

    • 기존 시험 문제들이 너무 유명해서 AI 가 문제를 풀기보다, 이미 답을 외워서 맞추는 경우가 많았습니다. 문제를 살짝 바꿔서 (패러프레이징) 다시 물어보니, 팀 방식은 급격히 떨어졌지만, 혼자 깊이 생각한 천재는 여전히 잘 풀었습니다.

4. 요약: 우리에게 주는 교훈

이 논문의 결론은 매우 명확합니다.

"AI 를 더 똑똑하게 만들고 싶다면, 무조건 팀을 꾸려서 서로 대화하게 하는 게 답이 아닙니다. 대신, 한 명의 AI 가 가진 '생각할 시간 (비용)'을 충분히 주고, 그 시간을 방해받지 않고 집중하게 하는 것이 훨씬 효율적입니다."

한 줄 요약:
복잡한 문제를 풀 때, 10 명이서 1 시간 동안 떠드는 것보다, 1 명이 1 시간 동안 조용히 깊이 생각하는 게 더 똑똑할 수 있습니다. 다만, 정보가 너무 지저분하거나 혼란스러울 때는 팀워크가 필요하죠.

이 연구는 앞으로 AI 시스템을 설계할 때, "팀을 더 많이 만들자"가 아니라 **"어떻게 하면 한 AI 가 주어진 시간 안에 더 집중하게 할까?"**를 고민해야 함을 시사합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →