Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

이 논문은 대규모 언어 모델이 복잡한 연구 과제를 수행할 수 있는 능력을 평가하기 위해 구조화된 계획, 광범위한 검색, 심층 조사를 통합한 '슈퍼 리서치 (Super Research)' 태스크와 이를 검증하는 300 개의 전문가 질문으로 구성된 벤치마크를 제안합니다.

Yubo Dong, Nianhao You, Yuxuan Hou, Zixun Sun, Yue Zhang, Liang Zhang, Siyuan Zhao, Hehe Fan

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 비유: "단순한 검색 vs. 초고층 빌딩 건설"

지금까지의 AI 는 주로 두 가지 방식으로 정보를 찾았습니다.

  • 깊은 연구 (Deep Research): 한 가지 길로만 쭉 파고드는 것. (예: "이 약의 부작용이 뭐야?"라고 물으면 약학 논문만 10 개를 파고들며 답을 찾음) -> 터널 시야의 위험이 있음.
  • 넓은 검색 (Wide Search): 여기저기 흩어진 정보를 많이 모으는 것. (예: "이 약에 대한 모든 정보"를 검색해서 100 개의 웹사이트 제목만 나열함) -> 정보 과부하로 핵심을 놓침.

하지만 이 논문이 제안하는 **'슈퍼 리서치 (Super Research)'**는 이 두 가지를 모두 합친 최고 수준의 탐구입니다.

비유: 마치 초고층 빌딩을 짓는 것과 같습니다.

  • 기초 (Super Wide): 땅을 넓게 파서 지반을 다져야 합니다 (수백 개의 웹사이트를 훑어보며 다양한 관점을 확보).
  • 탑 (Super Deep): 그 위에 수백 층을 쌓아 올리는 정밀한 공사가 필요합니다 (모순되는 정보를 하나하나 검증하며 논리를 깊게 파고듦).
  • 결과: 이 빌딩은 100 개 이상의 검색 단계1,000 개 이상의 웹페이지를 분석해야만 완성됩니다.

2. 시험지: "300 개의 '초고난도' 문제"

이 논문은 AI 들의 실력을 측정하기 위해 300 개의 전문가용 문제를 만들었습니다.

  • 문제 예시: "면역세포를 활성화하면서도 자가면역 질환 위험은 최소화하는, 정교하게 균형을 잡은 약물 개발 메커니즘은 무엇인가?"
  • 특징:
    • 구글에 검색해서 바로 나오는 답이 없습니다.
    • 서로 다른 의견들이 충돌하는 정보를 찾아내고, 이를 논리적으로 조율해야 합니다.
    • 마치 수석 연구원이 100 페이지가 넘는 보고서를 작성하듯, AI 가 50 페이지 분량의 연구 보고서를 써내야 합니다.

3. 채점관: "단순한 정답이 아닌 '논리 구조'를 보는 눈"

기존의 AI 평가는 "정답을 맞췄나요?"만 확인했습니다. 하지만 이 논문은 **새로운 채점 도구 (그래프 기반 감사)**를 개발했습니다.

비유: 건축 감리 (감사) 시스템을 상상해 보세요.

  • 기존 방식: "건물이 서 있나요?" (정답 유무만 확인)
  • 새로운 방식 (이 논문의 방식):
    • Coverage (범위): 설계도 (지식 그래프) 에 있는 모든 기둥과 보를 다 썼나요?
    • Logical Consistency (논리 일관성): 100 층짜리 빌딩이 1 층의 기초 없이 공중에 떠 있지는 않나요? (증거 없이 결론만 내면 감점)
    • Objectivity (객관성): 한쪽 의견만 편향적으로 강조하지 않고, 반대 의견도 균형 있게 다뤘나요?
    • Citation Health (출처 건강도): 한 두 개의 책만 베껴 썼나요? 다양한 출처를 섞어 썼나요?

4. 실험 결과: "아직 갈 길이 멀다"

이 '슈퍼 리서치' 시험을 12 개의 최신 AI 모델 (Gemini, GPT, Claude 등) 에게 시켰습니다.

  • 결과: 가장 잘한 모델도 전체 점수의 29% 만 받았습니다.
  • 의미: 현재 AI 들은 복잡한 문제를 해결할 때, 정보는 많이 찾지만 (넓은 검색), 그 정보를 논리적으로 연결하고 심층적으로 분석하는 능력 (깊은 연구) 이 아직 부족하다는 뜻입니다.

요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"AI 가 단순한 챗봇을 넘어, 진정한 '연구 파트너'가 되려면 얼마나 더 발전해야 하는지"**를 보여주는 최고 수준의 시험지입니다.

  • 현재 상태: AI 는 정보를 모으는 것은 잘하지만, 복잡한 문제를 해결하는 '통찰력'과 '논리력'은 아직 초보 수준입니다.
  • 미래: 이 '슈퍼 리서치' 능력을 갖춘 AI 가 등장하면, 과학적 발견, 기업 전략 수립, 복잡한 정책 분석 등 인간 전문가의 영역까지 대체할 수 있는 강력한 도구가 될 것입니다.

결론적으로, 이 논문은 **"AI 가 얼마나 깊은 바다를 헤엄칠 수 있는지, 그리고 그 바다에서 진주 (정답) 를 찾을 수 있는지"**를 측정하는 새로운 나침반을 제시한 것입니다.