Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Each language version is independently generated for its own context, not a direct translation.

1. 비유: "단순한 검색 vs. 초고층 빌딩 건설"

지금까지의 AI 는 주로 두 가지 방식으로 정보를 찾았습니다.

깊은 연구 (Deep Research): 한 가지 길로만 쭉 파고드는 것. (예: "이 약의 부작용이 뭐야?"라고 물으면 약학 논문만 10 개를 파고들며 답을 찾음) -> 터널 시야의 위험이 있음.
넓은 검색 (Wide Search): 여기저기 흩어진 정보를 많이 모으는 것. (예: "이 약에 대한 모든 정보"를 검색해서 100 개의 웹사이트 제목만 나열함) -> 정보 과부하로 핵심을 놓침.

하지만 이 논문이 제안하는 **'슈퍼 리서치 (Super Research)'**는 이 두 가지를 모두 합친 최고 수준의 탐구입니다.

비유: 마치 초고층 빌딩을 짓는 것과 같습니다.

기초 (Super Wide): 땅을 넓게 파서 지반을 다져야 합니다 (수백 개의 웹사이트를 훑어보며 다양한 관점을 확보).

탑 (Super Deep): 그 위에 수백 층을 쌓아 올리는 정밀한 공사가 필요합니다 (모순되는 정보를 하나하나 검증하며 논리를 깊게 파고듦).

결과: 이 빌딩은 100 개 이상의 검색 단계와 1,000 개 이상의 웹페이지를 분석해야만 완성됩니다.

2. 시험지: "300 개의 '초고난도' 문제"

이 논문은 AI 들의 실력을 측정하기 위해 300 개의 전문가용 문제를 만들었습니다.

문제 예시: "면역세포를 활성화하면서도 자가면역 질환 위험은 최소화하는, 정교하게 균형을 잡은 약물 개발 메커니즘은 무엇인가?"
특징:
- 구글에 검색해서 바로 나오는 답이 없습니다.
- 서로 다른 의견들이 충돌하는 정보를 찾아내고, 이를 논리적으로 조율해야 합니다.
- 마치 수석 연구원이 100 페이지가 넘는 보고서를 작성하듯, AI 가 50 페이지 분량의 연구 보고서를 써내야 합니다.

3. 채점관: "단순한 정답이 아닌 '논리 구조'를 보는 눈"

기존의 AI 평가는 "정답을 맞췄나요?"만 확인했습니다. 하지만 이 논문은 **새로운 채점 도구 (그래프 기반 감사)**를 개발했습니다.

비유: 건축 감리 (감사) 시스템을 상상해 보세요.

기존 방식: "건물이 서 있나요?" (정답 유무만 확인)

새로운 방식 (이 논문의 방식):

Coverage (범위): 설계도 (지식 그래프) 에 있는 모든 기둥과 보를 다 썼나요?

Logical Consistency (논리 일관성): 100 층짜리 빌딩이 1 층의 기초 없이 공중에 떠 있지는 않나요? (증거 없이 결론만 내면 감점)

Objectivity (객관성): 한쪽 의견만 편향적으로 강조하지 않고, 반대 의견도 균형 있게 다뤘나요?

Citation Health (출처 건강도): 한 두 개의 책만 베껴 썼나요? 다양한 출처를 섞어 썼나요?

4. 실험 결과: "아직 갈 길이 멀다"

이 '슈퍼 리서치' 시험을 12 개의 최신 AI 모델 (Gemini, GPT, Claude 등) 에게 시켰습니다.

결과: 가장 잘한 모델도 전체 점수의 29% 만 받았습니다.
의미: 현재 AI 들은 복잡한 문제를 해결할 때, 정보는 많이 찾지만 (넓은 검색), 그 정보를 논리적으로 연결하고 심층적으로 분석하는 능력 (깊은 연구) 이 아직 부족하다는 뜻입니다.

요약: 이 논문이 우리에게 주는 메시지

이 논문은 **"AI 가 단순한 챗봇을 넘어, 진정한 '연구 파트너'가 되려면 얼마나 더 발전해야 하는지"**를 보여주는 최고 수준의 시험지입니다.

현재 상태: AI 는 정보를 모으는 것은 잘하지만, 복잡한 문제를 해결하는 '통찰력'과 '논리력'은 아직 초보 수준입니다.
미래: 이 '슈퍼 리서치' 능력을 갖춘 AI 가 등장하면, 과학적 발견, 기업 전략 수립, 복잡한 정책 분석 등 인간 전문가의 영역까지 대체할 수 있는 강력한 도구가 될 것입니다.

결론적으로, 이 논문은 **"AI 가 얼마나 깊은 바다를 헤엄칠 수 있는지, 그리고 그 바다에서 진주 (정답) 를 찾을 수 있는지"**를 측정하는 새로운 나침반을 제시한 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 은 기존에 'Deep Research'(심층적 탐구) 나 'Wide Search'(광범위 검색) 중 하나에 특화되어 왔으나, **극도로 복잡한 질문 (Super-Complex Questions)**을 해결하는 능력은 여전히 미개척 영역입니다. 이러한 복잡한 질문은 다음과 같은 특징을 가집니다:

장기적 계획 (Long-horizon planning): 단순한 정보 검색을 넘어 수백 단계에 걸친 추론이 필요함.
방대한 증거 수집: 수천 개의 웹 페이지를 분석하고 상충되는 증거를 통합해야 함.
이질적 소스 통합: 다양한 관점 (경제, 기술, 사회적 등) 을 종합하여 새로운 통찰을 도출해야 함.

기존 벤치마크는 단순한 사실 회상 (Fact-recall) 이나 얕은 논리 구조에 의존하여, LLM 의 진정한 연구 능력과 추론의 한계를 평가하기에는 부족했습니다.

2. 방법론 (Methodology)

가. Super Research 태스크 정의

본 논문은 LLM 의 능력을 극한으로 시험하기 위해 Super Research라는 새로운 태스크를 정의했습니다. 이는 다음 세 가지 핵심 기둥을 통합합니다:

구조화된 분해 (Structured Decomposition): 단일 거대 질문을 다층적인 연구 계획 (Research Plan) 으로 분해.
초광범위 검색 (Super Wide Retrieval): 다양한 관점을 포괄하기 위해 검색 공간을 수평적으로 광범위하게 탐색.
초심층 조사 (Super Deep Investigation): 불확실성을 해결하고 데이터의 신뢰성을 검증하기 위해 반복적인 후속 질문 (Iterative Queries) 수행.

나. SuperResearch 벤치마크 구축

규모: 10 개의 전문 분야 (공학, 의학, 금융, 환경 등) 에 걸쳐 300 개의 전문가 작성 질문으로 구성.
난이도: 각 태스크는 평균 100 회 이상의 검색 단계와 1,000 개 이상의 웹 페이지를 처리하여 상충되는 증거를 통합해야 함. 최종 보고서 길이는 최대 50 페이지 (약 10 만 단어) 에 달함.
구축 프로세스:
1. 계획 (Planner): 주제를 DAG(방향성 비순환 그래프) 형태의 연구 작업으로 분해.
2. 연구 (Researcher & Summarizer): 의존성을 고려하여 하위 작업을 수행하고 결과를 동적 메모리에 통합.
3. 그래프 구축 (Research Graph Construction): 비정형 보고서를 구조화된 '연구 그래프'로 변환. (사실 추출 $\rightarrow$ 통찰 추상화 $\rightarrow$ 글로벌 종합)
4. 보고서 생성 및 검증: 인간 전문가와 AI 가 협력하여 논리적 타당성을 검증하고 최종 보고서를 작성.

다. 평가 프레임워크 (Graph-Anchored Auditing)

기존의 'LLM-as-a-Judge' 방식의 한계를 극복하기 위해 **연구 그래프 (Research Graph)**에 기반한 자동화된 감사 프로토콜을 도입했습니다. 5 가지 차원에서 모델을 평가합니다:

Coverage & Comprehension (Rweighted): 생성된 보고서가 사실 (Facts), 핵심 통찰 (Key Insights), 글로벌 결론 (Global Insights) 을 얼마나 포괄하는지 계층적 가중치로 평가.
Logical Consistency (Clogic): 결론이 유효한 증거 연결고리를 통해 논리적으로 도출되었는지 검증 (할루시네이션 방지).
Report Utility (Uqa): 생성된 보고서만으로 전문가 수준의 질문 (QA) 을 정확히 답할 수 있는지 평가.
Objectivity Score (Obias): 상반된 견해 (Thesis vs. Antithesis) 를 얼마나 균형 있게 다뤘는지 평가.
Citation Health: 단일 소스 의존도 (Source Dominance) 와 서술 독점 (Narrative Monopolization) 을 진단하여 정보의 다양성을 확인.

3. 주요 기여 (Key Contributions)

새로운 벤치마크 (SuperResearch Benchmark): 300 개의 초고난도 태스크와 1,000+ 페이지 규모의 데이터셋을 공개하여 LLM 의 연구 능력 한계를 측정하는 'Ceiling-Level' 표준을 제시.
그래프 기반 평가 프로토콜: 단순 텍스트 매칭이 아닌, 지식 그래프를 기반으로 한 정량적 평가 도구를 개발하여 논리적 일관성과 편향을 정밀하게 측정.
Super Research 패러다임 제안: 'Deep'과 'Wide'를 동시에 달성하는 새로운 연구 에이전트 아키텍처의 필요성을 강조하고 그 실효성을 입증.

4. 실험 결과 (Results)

12 개의 주요 연구 시스템 (Gemini Deep Research, Sonar, o3/o4-mini, Kimi-k2, Grok 등) 을 평가한 결과:

전반적 저조한 성능: 최상위 모델 (Gemini Deep Research) 의 전체 점수는 28.62 점에 불과하여, 초복잡 질문 해결은 여전히 해결되지 않은 난제임을 보여줌.
논리적 일관성 병목 (Logic Bottleneck): 정보 수집 범위 (Coverage) 가 넓더라도 이를 논리적으로 통합하여 결론을 도출하는 능력 (Consistency) 에서 심각한 한계를 보임.
모델별 특징:
- Deep Research 시스템: 전반적으로 가장 높은 성능을 보였으나, 논리적 통합에서 여전히 미흡함.
- Native Search-Agent (Kimi-k2, Grok): 전문적인 Deep Research 시스템과 유사하거나 일부에서 더 나은 성능을 보이며, 통합 검색의 잠재력을 입증.
- Search-Augmented Baseline: 단순 검색 프레임워크를 적용한 모델들은 복잡한 태스크에서 큰 격차를 보임.
평가 민감도 분석: 제안된 그래프 기반 평가 지표는 LLM Judge 에 비해 품질 변화 (Fact 제거/추가) 에 훨씬 민감하게 반응하여 (57~~79% 대 14~~22%) 신뢰성이 높음을 입증.

5. 의의 및 시사점 (Significance)

LLM 능력의 'Ceiling' 테스트: Super Research 는 단순한 정보 검색을 넘어, 인간 전문가 수준의 전략적 사고와 장기적 계획이 필요한 작업을 수행할 수 있는 LLM 의 능력을 평가하는 새로운 기준이 됩니다.
신뢰성 있는 연구 에이전트 개발: 이 벤치마크에서의 성공은 LLM 이 어떤 하위 연구 태스크에서도 견고하고 신뢰할 수 있는 '에이전트 (Agent)'로 작동할 수 있음을 시사합니다.
미래 연구 방향: 현재 모델들은 '방대한 정보'와 '깊은 논리'를 동시에 처리하는 데 실패하고 있으므로, 향후 연구는 정보 통합의 논리적 구조와 편향 제어에 집중해야 함을 강조합니다.

이 논문은 LLM 이 단순한 챗봇을 넘어, 과학적 발견이나 전략적 기획과 같은 고도화된 연구 작업을 수행할 수 있는 진정한 '추론 엔진'으로 발전하기 위해 필요한 방향성을 제시합니다.