WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

이 논문은 수직적 확장 (깊이) 에 집중해 온 기존 LLM 접근법의 한계를 넘어, 다중 에이전트 강화학습을 통해 병렬 실행과 확장 가능한 오케스트레이션을 가능하게 하는 'WideSeek-R1'을 제안하여, 4B 파라미터 모델이 671B 단일 에이전트 모델과 comparable 한 성능을 내며 폭넓은 정보 검색 과제를 효과적으로 해결함을 보여줍니다.

Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

와이드시크-R1 (WIDESEEK-R1): "한 명보다 열 명이 더 빠르다!"

이 논문은 최근 인공지능 (LLM) 이 어떻게 더 똑똑해져야 하는지에 대한 새로운 접근법을 제시합니다. 기존의 방식은 **"한 명의 천재가 더 깊이 생각하게 만드는 것"**이었다면, 이 논문은 **"여러 명의 전문가를 동시에 일하게 만드는 것"**이 더 효율적일 수 있다고 말합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: "한 명의 천재"는 왜 지칠까? (깊이 확장 vs 너비 확장)

지금까지 AI 를 발전시키는 방법은 주로 **'깊이 확장 (Depth Scaling)'**이었습니다.

  • 비유: 마치 한 명의 천재 탐정이 사건을 해결하는 것과 같습니다. 그는 혼자서 모든 단서를 하나하나 조사하고, 밤새도록 고민하며 (여러 번의 대화), 복잡한 추리를 합니다.
  • 한계: 하지만 조사해야 할 범위가 너무 넓어지면 (예: "전 세계의 모든 아이비리그 대학 정보를 표로 정리해줘"), 이 천재 탐정은 혼자서 모든 정보를 찾아야 하므로 시간이 너무 오래 걸리거나, 조사하다 보면 혼란에 빠져서 (컨텍스트 오염) 중요한 정보를 놓치게 됩니다.

이 논문은 여기서 **'너비 확장 (Width Scaling)'**이라는 새로운 길을 제안합니다.

  • 비유: 이제 **한 명의 팀장 (리드 에이전트)**이 나서서 일을 분배합니다. 팀장은 직접 모든 것을 조사하지 않고, **여러 명의 조사원 (서브 에이전트)**에게 "너는 Harvard 정보 찾아줘, 너는 Yale 정보 찾아줘"라고 동시에 지시합니다.
  • 효과: 여러 명이 동시에 일하므로 훨씬 빠르고, 각 조사원은 자신의 일만 집중하므로 실수가 줄어듭니다.

2. 해결책: WIDESEEK-R1 (팀워크를 배우는 AI)

기존에도 여러 AI 를 함께 쓰는 시스템이 있었지만, 대부분 **사람이 직접 "이렇게 일해라"라고 정해놓은 규칙 (워크플로우)**에 따라 움직였습니다. 마치 조종사가 직접 모든 버튼을 누르는 비행기 같았죠.

WIDESEEK-R1은 다릅니다.

  • 비유: 이 시스템은 **스스로 팀워크를 배운 '스마트 팀'**입니다.
    • 팀장 (리드 에이전트): 복잡한 질문을 받아서 "이 일을 어떻게 쪼개서 여러 명이 동시에 할 수 있을까?"를 스스로 고민하고 일을 분배합니다.
    • 조사원 (서브 에이전트): 할당받은 일을 동시에 검색하고 정보를 찾아냅니다.
    • 학습 방법 (MARL): 처음에는 팀장도 조사원도 서툴러서 엉뚱한 일을 할 수 있습니다. 하지만 **보상 시스템 (상금)**을 통해 "잘한 팀은 상을 주고, 실패한 팀은 지적한다"는 식으로 수만 번의 연습을 시켰습니다. 그 결과, 팀원들끼리 자연스럽게 협력하는 법을 스스로 터득하게 되었습니다.

3. 놀라운 성과: 작은 모델이 거인을 이기다

이 논문의 가장 큰 놀라움은 크기입니다.

  • 기존 방식 (DeepSeek-R1): 6710 억 개의 파라미터 (지식과 능력의 단위) 를 가진 거대 AI가 혼자서 모든 일을 했습니다. (비유: 거인)
  • WIDESEEK-R1:40 억 개의 파라미터를 가진 작은 AI 4B 모델을 팀으로 꾸렸습니다. (비유: 40 억 크기의 작은 인간 10 명 팀)

결과:

  • 작은 AI 팀이 거인 AI 와 동일한 성능을 냈습니다!
  • 게다가 팀원 수 (서브 에이전트) 를 더 늘리면 성능이 계속 좋아졌습니다. 하지만 거인 AI 는 혼자서 더 깊게 생각해도 성능이 더 이상 오르지 않는 한계 (포화 상태) 에 빠졌습니다.

4. 왜 이것이 중요한가요? (민주화된 AI)

  • 비용 절감: 거대 AI 를 돌리려면 엄청난 전기와 비싼 컴퓨터가 필요합니다. 하지만 이 방법은 작은 AI 여러 개를 쓰면 되므로 훨씬 저렴합니다.
  • 미래 지향: 앞으로 AI 는 "더 똑똑한 한 명"을 만드는 것보다, **"더 잘 협력하는 많은 개체"**를 만드는 방향으로 발전할 수 있음을 보여줍니다.

요약

이 논문은 **"혼자서 밤새워 고민하는 천재보다, 팀장에게 지시를 받고 동시에 일하는 전문가 팀이 더 빠르고 정확하다"**는 것을 증명했습니다. 특히, 이 팀워크는 사람이 규칙을 정해주는 게 아니라 AI 스스로 연습을 통해 배운 것이라서 더욱 혁신적입니다.

마치 한 명의 거인이 무거운 돌을 들어 올리는 대신, 작은 돌을 나르는 개미들이 협력하여 훨씬 더 큰 무언가를 해결하는 것과 같습니다. 🐜🏗️