SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 비유: "거대한 도서관의 사서 팀"

상상해 보세요. 여러분이 수만 권의 책이 꽂혀 있는 거대한 도서관에 있다고 칩시다. 그리고 아주 복잡한 질문을 던졌습니다.

"지난 10 년간 이 회사의 재무제표와 관련 학술 논문들을 모두 뒤져서, 이 회사가 직면한 가장 큰 위험 요인은 무엇인지 찾아줘."

기존의 AI 시스템들은 이 질문을 어떻게 처리할까요?

1. 기존 방식 (Normal RAG) 의 실패: "눈이 먼 사서"

기존 시스템은 도서관 사서 한 명에게 "가장 관련 있어 보이는 책 5 권만 가져와"라고 시킵니다.

문제점: 정답이 10 번째 책과 50 번째 책에 숨어 있다면? 사서는 처음 5 권만 보고 "정답이 없네요"라고 말합니다. **중요한 정보가 빠지는 것 (Coverage Failure)**이죠.

2. 기존 방식 (Long Context LLM) 의 실패: "머리가 터진 천재"

다른 방법은 도서관의 모든 책 (수십만 페이지) 을 한꺼번에 AI 에게 보여주고 "이거 다 읽고 답해"라고 하는 것입니다.

문제점: AI 는 책이 너무 많으면 중간 내용을 잊어버리거나 (Lost in the middle), 너무 많은 정보에 압도되어 논리적으로 혼란을 겪습니다. 마치 한 번에 100 권의 책을 읽으려다 머리가 터진 사람과 같습니다.

🚀 SPD-RAG 의 해결책: "전문가 팀과 지휘관"

SPD-RAG 는 이 문제를 팀워크로 해결합니다. 도서관을 하나의 거대한 팀으로 바꾼 것입니다.

1. 지휘관 (Coordinator Agent)

역할: 질문을 분석하고, 도서관의 모든 책에 **"무엇을 찾아야 하는지"**에 대한 공통 지시사항을 작성합니다.
비유: 마치 현장 지휘관이 "모든 팀원들은 '위험 요소'와 '수치'를 찾아서 보고해라"라고 명령하는 것과 같습니다.

2. 책별 전담 요원 (Sub-Agents)

역할: 도서관의 책 한 권당 한 명의 전담 요원을 배치합니다.
특징:
- 각 요원은 자신이 맡은 책 한 권만 집중해서 봅니다.
- 다른 책의 소음에 방해받지 않고, 그 책 안에 숨겨진 모든 단서를 꼼꼼히 찾아냅니다.
- 비유: 100 권의 책이 있다면 100 명의 전문가가 각각 한 권씩 맡아, 그 책의 모든 페이지를 샅샅이 뒤지는 것입니다. "이 책에는 위험 요소가 A 와 B 가 있네!"라고 각자 보고서를 작성합니다.

3. 종합 보고서 작성 (Synthesis Layer)

역할: 100 명의 요원이 작성한 보고서를 한데 모아서, 지휘관이 최종 답변을 만듭니다.
비유: 각 요원의 보고서를 모아서, "A 책과 B 책의 위험 요소를 합치면 결국 이 회사가 가장 큰 위험에 처했구나"라고 통찰력 있는 최종 결론을 내립니다.

🏆 왜 이 방식이 더 좋은가요? (결과)

이 논문은 실제 시험 (Loong 벤치마크) 에서 이 방식을 테스트했습니다.

정확도: 기존 방식 (점수 33 점) 보다 SPD-RAG 는 58 점을 받았습니다. (약 76% 향상!)
- 특히, 여러 책의 정보를 연결해야 하는 복잡한 문제 (클러스터링, 추론) 에서 압도적인 차이를 보였습니다.
비용: 모든 책을 한 번에 읽는 '초고성능 AI'를 쓰는 것보다 비용은 38% 수준으로 줄였습니다.
- 이유: 책 한 권씩 읽는 요원들은 저렴한 AI(Gemini 2.5 Flash) 로 충분하고, 최종 결론만 내리는 지휘관에게만 비싼 AI 를 쓰면 되기 때문입니다.

💡 한 줄 요약

**"한 명의 천재가 모든 책을 다 읽으려다 지치는 대신, 책 한 권씩을 맡은 전문가 팀이 각자 꼼꼼히 찾아낸 정보를 지휘관이 하나로 합쳐서, 더 정확하고 저렴한 답을 내는 시스템"**입니다.

이 방식은 방대한 문서가 필요한 금융 리포트 분석, 법률 조사, 학술 연구 등 복잡하고 긴 문서를 다뤄야 하는 모든 상황에 혁신을 가져올 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

복잡한 현실 세계의 질문 (예: 여러 연도의 재무 보고서 분석, 다수의 과학 논문 통합) 은 방대한 문서 코퍼스 (Corpus) 에 흩어진 사실을 종합해야 합니다. 기존 시스템은 다음과 같은 한계를 겪고 있습니다:

기존 RAG 의 불완전한 증거 수집: 표준 RAG 는 고정된 수 ( $K$ ) 의 문서만 검색하여 단일 컨텍스트 윈도우에서 처리합니다. 정답이 여러 문서에 분산되어 있을 경우, 상위 $K$ 개 결과 외의 중요한 증거가 누락됩니다.
장문맥 LLM 의 추론 능력 저하: 컨텍스트 윈도우를 128K~2M 토큰까지 확장한 LLM 들조차, 입력 길이가 길어질수록 추론 품질이 현저히 떨어지는 ('Lost in the Middle' 현상 등) 문제가 있습니다.
기존 에이전트 RAG 의 비효율성: 단일 에이전트가 전역 코퍼스를 검색하는 방식은 문서별 특수화 (Specialization) 가 부족하여, 특히 학술 논문처럼 정보가 고르게 분산된 문서에서는 성능이 크게 저하됩니다.

2. 방법론 (Methodology)

SPD-RAG는 문제를 '작업 (Task)' 축이 아닌 '문서 (Document)' 축으로 분해하는 계층적 멀티 에이전트 프레임워크입니다.

핵심 아키텍처

조정 계층 (Coordination Layer):
- 중앙 조정자 (Coordinator) 에이전트가 사용자의 쿼리를 분석합니다.
- 공유 지시어 (Shared Instruction Set): 각 문서 에이전트가 추출해야 할 필드, 엔티티, 수치 등을 정의하는 하위 작업 목록 (sub_agent_todos) 을 생성합니다.
- 합성 지시 (Synthesis Directive): 하위 에이전트들의 결과를 어떻게 통합할지 지침을 제공합니다.
병렬 검색 계층 (Parallel Retrieval Layer):
- 문서별 전용 에이전트: 코퍼스의 각 문서 $d_i$ 에 대해 전용 서브 에이전트 $\alpha_i$ 가 할당됩니다.
- 고립된 검색 우주: 각 에이전트는 할당된 문서 내에서만 검색 (Vector Retrieval) 과 추론을 수행하며, 다른 문서의 노이즈에 영향을 받지 않습니다.
- 반복적 검색: 각 에이전트는 최소 2 회 이상의 집중된 검색을 수행하며, 최대 5 회까지 반복하여 해당 문서 내의 관련 정보를 최대한 추출합니다.
- 병렬 실행: LangGraph 의 Send API를 통해 모든 문서 에이전트가 동시에 실행됩니다.
합성 계층 (Synthesis Layer):
- 유사도 기반 병합 (Similarity-Ordered Merge): 각 에이전트에서 추출된 결과 ( $s_i$ ) 를 Cohere 임베딩으로 벡터화하고, 코사인 유사도 기반의 계층적 군집화 (Agglomerative Clustering) 를 수행합니다.
- 재귀적 Map-Reduce: 토큰 예산 (750,000 토큰) 을 초과하지 않는 범위 내에서 유사한 요약들을 그룹화하고 LLM 을 통해 병합합니다. 이 과정은 최종 요약이 하나의 컨텍스트에 들어갈 때까지 재귀적으로 반복됩니다.
- 최종 출력: 모든 문서를 포괄하는 종합적인 답변을 생성합니다.

3. 주요 기여 (Key Contributions)

SPD-RAG 프레임워크 제안: 문서별 전용 에이전트와 중앙 집중식 합성 계층을 결합하여, 각 문서를 심층적으로 분석하면서도 확장성을 유지하는 새로운 아키텍처를 제시했습니다.
Loong 벤치마크에서의 압도적 성능: 11 개 이상의 문서로 구성된 장문맥 다중 문서 QA 태스크에서 기존 RAG 및 Agentic RAG 를 크게 상회하는 성능을 입증했습니다.
비용 - 품질 최적화: 전체 컨텍스트 (Full-Context) 기반의 오라클 (Oracle) 모델 대비 85.4% 의 품질을 달성하면서, API 비용은 38% 수준으로 절감했습니다.

4. 실험 결과 (Results)

Loong 벤치마크 (영문, 102 개 인스턴스) 평가 결과:

시스템	Avg Score	Perfect Rate (PR%)	Avg Cost ($)
Full Context (Oracle)	68.0	31.4%	0.273
Normal RAG	33.0	13.7%	0.080
Agentic RAG	32.8	8.8%	0.098
SPD-RAG (본 논문)	58.1	18.6%	0.103

성능 향상: Normal RAG 대비 Avg Score 25.1 점 (약 76% 향상) 상승.
비용 효율성: Full Context 기준 대비 37.9% 비용으로 85% 이상의 품질 달성.
도메인별 분석:
- 학술 논문 (Academic Papers): 기존 RAG 는 0% 의 Perfect Rate 를 기록했으나, SPD-RAG 는 Avg Score 60.0을 기록하며 정보 분산 문제를 해결했습니다.
- 재무 보고서 (Financial Reports): 구조화된 데이터에서 모든 시스템이 잘 수행했으나, SPD-RAG 가 여전히 높은 점수를 유지했습니다.
태스크 유형별: '클러스터링 (Clustering)' 및 '추론 체인 (Chain of Reasoning)'과 같이 여러 문서의 증거를 종합해야 하는 태스크에서 가장 큰 성능 격차 (+40.5 점, +26.2 점) 를 보였습니다.

5. 의의 및 결론 (Significance)

확장 가능한 다중 문서 처리: 단일 모델이 모든 문서를 한 번에 읽는 방식의 한계를 극복하고, 문서별 전문 에이전트를 통해 **포괄적인 증거 수집 (Exhaustive Coverage)**을 가능하게 했습니다.
비용 효율적인 아키텍처: 고비용의 대형 모델 (Gemini 2.5 Pro) 을 조정자와 합성 단계에만 사용하고, 문서별 검색에는 저비용 모델 (Gemini 2.5 Flash) 을 활용하여 전체 비용을 절감했습니다.
실용적 가치: 복잡한 정보 검색 작업에서 "얼마나 많은 컨텍스트를 한 번에 넣을 것인가"보다 **"각 문서를 어떻게 체계적으로 처리하고 통합할 것인가"**가 더 중요함을 입증했습니다.

이 연구는 대규모 문서 코퍼스를 대상으로 한 정밀한 질문 응답 시스템의 새로운 표준을 제시하며, 특히 학술 및 금융 분야와 같이 정보가 분산된 복잡한 도메인에서 높은 실용성을 가집니다.