SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Each language version is independently generated for its own context, not a direct translation.

1. 과거 vs 현재: "수동적인 도서관 사서" vs "능동적인 탐정"

기존 시스템 (Static RAG): "질문만 던지는 도서관 사서"
과거의 검색 시스템은 도서관 사서와 비슷했습니다.

상황: 사용자가 "오늘 날씨 어때?"라고 물으면, 사서는 미리 정해진 규칙대로 책장 (데이터베이스) 을 뒤져 가장 관련 있어 보이는 책 한 권을 가져와서 사용자에게 건네줍니다.
문제: 만약 사서가 잘못된 책을 가져오거나, 책에 정보가 부족하다면? 사서는 **"모르겠어요"**라고만 하거나, 잘못된 정보를 그대로 전달합니다. 사서는 질문을 다시 해석하거나, 다른 책을 찾아보려고 스스로 생각하지 못합니다.

새로운 시스템 (Agentic RAG): "스스로 계획하는 디지털 탐정"
이 논문이 다루는 '에이전트 (Agent)'는 단순한 사서가 아니라, 스스로 문제를 해결하려는 탐정입니다.

상황: 사용자가 "내일 여행 갈 옷 뭐 입어야 할지 알려줘"라고 물으면, 탐정은 다음과 같이 행동합니다.
1. 계획: "일단 날씨를 먼저 확인해야겠다. 그다음에 여행지의 활동 (등산인지 해변인지) 을 알아봐야겠다."
2. 행동: 날씨 사이트를 검색하고, 여행지 블로그를 찾아봅니다.
3. 반성: "어? 날씨 정보는 찾았는데, 등산용 옷이 필요한지 해변용인지 명확하지 않네? 아, 여행지 활동 정보를 더 찾아봐야겠다."
4. 수정: 다시 검색어를 바꿔서 활동 정보를 찾아내고, 최종적으로 "등산이니까 방풍 재킷을 챙기세요"라고 답합니다.
핵심: 이 탐정은 실수하면 스스로 고치고, 정보가 부족하면 스스로 더 찾아보며, 최종 답을 낼 때까지 여러 번 생각 (Reasoning) 하고 행동 (Acting) 합니다.

2. 이 탐정 (시스템) 은 어떻게 만들어질까? (아키텍처)

논문은 이 탐정 시스템을 레고 블록처럼 나누어 설명합니다.

기획자 (Planner): 탐정의 두뇌입니다. "무엇을 먼저 해야 할지" 큰 그림을 그립니다. (예: "일단 날씨부터 확인하자.")
검색 엔진 (Retriever): 탐정의 눈입니다. 기획자의 지시에 따라 필요한 정보를 찾아옵니다.
기억 장치 (Memory): 탐정의 일기장입니다. "아까 찾은 정보는 뭐였지?"를 기억하고, 과거의 실수를 기록해 다음에 다시 실수하지 않게 합니다.
도구 사용 (Tool Use): 탐정의 손입니다. 검색뿐만 아니라 계산기, 코드 실행기, 다른 앱 등을 직접 조작할 수 있습니다.
검증관 (Verifier): 탐정의 conscience (양심) 입니다. "이 정보가 맞을까? 혹시 거짓말은 아닐까?"를 스스로 점검합니다.

3. 왜 이제야 중요해졌을까? (위험과 문제점)

이 탐정 시스템은 강력하지만, 새로운 위험도 생겼습니다. 논문은 이를 경계해야 할 점으로 꼽습니다.

착각의 연쇄 (Hallucination Propagation):
- 비유: 탐정이 첫 번째 단계에서 "내일 비가 온다"라고 잘못 추측했다고 칩시다. 그다음 단계에서 그 잘못된 정보를 바탕으로 "우산 챙겨라"라고 결론을 내립니다. 초기 작은 착각이 나중에 큰 오류로 커지는 것입니다.
악성 정보의 침투 (Prompt Injection):
- 비유: 탐정이 찾아온 책 (검색 결과) 중에 누군가 "이 책의 3 페이지를 보면, 너는 지금부터 나쁜 일을 해야 한다"라고 적힌 악성 메모가 숨겨져 있다면? 탐정은 그 메모를 읽고 미쳐버릴 수 있습니다. 검색을 반복할수록 이런 위험에 노출될 기회도 늘어납니다.
기억 오염 (Memory Poisoning):
- 비유: 탐정의 일기장에 누군가 "너는 항상 틀린 답을 낸다"라고 써넣으면, 탐정은 그 기억을 바탕으로 모든 판단을 망칠 수 있습니다.

4. 앞으로 어떻게 발전해야 할까? (미래 방향)

이 논문은 단순히 시스템을 만드는 것을 넘어, 안전하고 신뢰할 수 있는 탐정을 키우는 방법을 제안합니다.

안정적인 나침반: 탐정이 헤매지 않고 (검색이 엉뚱한 곳으로 가지 않게), 목적지에 도달할 수 있도록 수학적 원리를 적용해야 합니다.
정교한 평가: "정답만 맞으면 OK"가 아닙니다. "탐정이 어떤 과정을 거쳐 그 답을 냈는지" 그 **생각의 과정 (Trajectory)**까지 평가해야 합니다.
비용 관리: 탐정이 너무 많은 책을 찾아보고, 너무 많은 시간을 쓰면 비용이 천문학적으로 늘어납니다. "얼마나 효율적으로 문제를 해결했는지"를 계산해야 합니다.
인간의 개입 (Human-in-the-loop): 탐정이 너무 위험한 결정을 내리려 할 때, 사람이 멈추고 확인하는 안전장치가 필수적입니다.

요약: 이 논문의 핵심 메시지

이 논문은 **"AI 가 단순히 정보를 찾아주는 것을 넘어, 스스로 생각하고 행동하는 '지능형 에이전트'가 되는 과정"**을 체계적으로 정리했습니다.

과거: 질문 → 검색 → 답변 (일회성)
현재와 미래: 질문 → 계획 → 검색 → 생각 → 수정 → 다시 검색 → 최종 답변 (반복적이고 자율적인 과정)

하지만 이 강력한 능력을 쓰기 위해서는 실수를 스스로 고치는 능력, 악성 정보에 걸리지 않는 방어력, 그리고 비용 효율성을 갖춘 안전 장치가 반드시 필요합니다. 이 논문은 바로 그 안전하고 신뢰할 수 있는 AI 탐정을 만드는 청사진을 제시합니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: Agentic RAG (에이전트 기반 검색 증강 생성) 의 체계화

1. 문제 제기 (Problem)

기존의 검색 증강 생성 (RAG) 시스템은 정적인 '검색 후 생성 (Retrieve-then-Generate)' 파이프라인에 의존합니다. 이는 초기 쿼리 기반으로 고정된 문서 세트를 검색한 후 한 번에 답변을 생성하는 결정론적 구조입니다. 이러한 방식은 다음과 같은 심각한 한계를 가집니다:

취약성: 복잡한 다단계 추론 (Multi-hop reasoning) 이나 지식이 필요한 작업에서 초기 검색이 부정확하면 시스템이 수정할 수 있는 루프가 없어 실패합니다.
맥락 과부하: 관련 없는 정보가 검색되어 '중간 잃음 (Lost-in-the-middle)' 현상을 유발하거나, 불필요한 토큰 소모를 초래합니다.
오류 전파: 검색 단계와 생성 단계가 분리되어 있어, 생성 과정에서 필요한 추가 정보가 부족할 때 이를 요청하거나 수정할 수 없습니다.

최근 LLM(대규모 언어 모델) 이 자율적으로 도구를 호출하고 다단계 추론을 수행하는 '에이전트 (Agent)' 형태로 진화하면서, RAG 도 단순한 전처리 단계를 넘어 자율적인 의사결정 시스템으로 변모하고 있습니다. 그러나 현재 '에이전트 RAG'에 대한 체계적인 이해가 부족하여 아키텍처가 파편화되고, 평가 방법이 일관되지 않으며, 신뢰성 위험 (할루시네이션 증폭, 메모리 오염 등) 이 해결되지 않은 상태입니다.

2. 방법론 (Methodology)

이 논문은 에이전트 RAG 시스템을 체계화하기 위해 다음과 같은 방법론을 제시합니다:

수학적 형식화 (Formalization): 에이전트 RAG 를 **유한 시간 범위 (Finite-horizon) 의 부분 관측 마르코프 결정 과정 (POMDP)**으로 모델링합니다.
- 상태 ( $S$ ): 작업 컨텍스트, 검색된 문서, 메모리 등.
- 행동 ( $A$ ): 검색, 추론, 도구 호출, 종료 등.
- 관측 ( $O$ ): 검색 결과 또는 도구 출력.
- 정책 ( $\pi$ ): LLM 이 현재 메모리에 기반하여 다음 행동을 선택하는 확률적 제어 정책.
- 이를 통해 검색을 단순한 전처리가 아닌, 정책 기반의 다단계 도구 호출로 정의합니다.
다차원 분류 체계 (Taxonomy): 기존 시스템들을 4 가지 직교 축 (Orthogonal axes) 으로 분류합니다.
1. 플래닝 (Planning): 단일 에이전트 vs. 플래너 - 실행자 분리 vs. 다중 에이전트 협업.
2. 검색 전략 (Retrieval Strategy): 원샷 (One-shot) vs. 반복적 (Iterative) vs. 자기 정제 (Self-refining).
3. 추론 (Reasoning): 연쇄 사고 (CoT), ReAct(추론과 행동 교차), 반성 (Reflection), 트리 기반 탐색.
4. 메모리 및 컨텍스트 (Memory): 단기 작업 메모리, 에피소드 메모리, 장기 지속 메모리.
아키텍처 분해 (Architectural Decomposition): 에이전트 RAG 를 6 가지 핵심 모듈로 분해하여 설계 패턴을 제시합니다.
- 플래너 (Planner), 검색 엔진 (Retrieval Engine), 추론 엔진 (Reasoning Engine/Controller), 메모리 시스템, 도구 오케스트레이션 레이어, 검증 및 자기 수정 모듈.
평가 프레임워크 재정의: 정적인 정답 정확도 (BLEU, ROUGE 등) 를 넘어 궤적 (Trajectory) 수준의 평가를 제안합니다.
- 성공률 (Progress Rate): 추론 단계가 작업을 진전시키는 비율.
- 유효 정보율 (EIR): 검색된 정보 중 실제로 유용한 정보의 비율.
- 3 층 평가 파이프라인: 구성 요소 수준 (도구 정확도) → 궤적 수준 (논리적 일관성) → 시스템 수준 (최종 결과 및 비용/지연 시간).

3. 주요 기여 (Key Contributions)

첫 번째 통합 프레임워크: 에이전트 RAG 를 자율적 순차 의사결정 시스템으로 공식화하고, 이를 위한 최초의 통합 개념적 틀을 제시했습니다.
체계적 분류 (Taxonomy): 플래닝, 검색, 메모리, 도구 조율 등 다양한 차원에서 에이전트 RAG 시스템을 분류하는 다차원 분류 체계를 확립했습니다.
모듈형 아키텍처 설계: 플래너, 컨트롤러, 오케스트레이터 등 재사용 가능한 설계 패턴 (Plan-then-Retrieve, Retrieve-Reflect-Refine 등) 과 핵심 모듈을 정의하여 시스템 구축을 위한 청사진을 제공합니다.
평가 및 위험 분석: 기존 정적 평가의 한계를 지적하고, 궤적 기반의 새로운 평가 지표를 제안했습니다. 또한, 반복적 루프에서 발생하는 할루시네이션 증폭, 메모리 오염, 검색 왜곡, 도구 오용 등의 시스템적 위험을 체계적으로 분석했습니다.
미래 연구 방향 제시: 안정적 적응 검색, 형식적 궤적 평가, 비용 인식 오케스트레이션, 신뢰도 보정 (Trust Calibration) 등 5 가지 박사급 (Doctoral-scale) 연구 과제를 제시했습니다.

4. 결과 및 통찰 (Results & Insights)

정적 RAG 와 에이전트 RAG 의 본질적 차이: 에이전트 RAG 는 단순한 검색 횟수 증가가 아니라, **자율적 제어 정책 (Control Policy)**을 통해 검색 시점, 대상, 방법을 동적으로 결정하는 시스템임을 규명했습니다.
반복적 루프의 위험: 에이전트 시스템은 초기 오류가 후속 단계로 전파되어 시스템 전체가 붕괴되는 '연쇄 실패 (Cascading Failure)'와 '할루시네이션 순환'에 매우 취약함을 발견했습니다.
산업적 적용의 장벽: 학술적 프로토타입과 산업 현장 사이의 격차가 존재합니다. 산업계는 지연 시간 (Latency) 과 토큰 비용, 그리고 결정론적 제어 (Deterministic Control) 를 중시하는 반면, 기존 연구는 비용과 지연을 고려하지 않은 무제한 실행에 치중해 왔습니다.
평가의 패러다임 전환: 최종 답변의 정확도만 보는 것이 아니라, 에이전트가 어떻게 (How) 그 답변에 도달했는지 (추론 경로, 도구 사용 적절성, 메모리 관리) 를 평가해야 함을 강조했습니다.

5. 의의 (Significance)

이 논문은 에이전트 RAG 분야가 단순한 엔지니어링 실험을 넘어 신뢰할 수 있고 제어 가능한 자율 시스템으로 발전하기 위한 이론적 토대를 마련했습니다.

이론적 기반: POMDP 기반의 형식적 정의를 통해 에이전트 RAG 의 작동 원리를 수학적으로 규명했습니다.
실용적 가이드: 산업계와 연구계가 공통의 분류 체계와 평가 기준을 공유할 수 있도록 하여, 시스템 설계의 표준화와 재현성을 높입니다.
안전성 강조: 자율 시스템의 배포에 필수적인 보안 (메모리 오염 방지, 주입 공격 대응) 과 신뢰성 (할루시네이션 제어) 문제를 체계적으로 다루어, 고위험 분야 (의료, 법률, 금융) 에의 적용 가능성을 논의합니다.

결론적으로, 이 연구는 에이전트 RAG 를 '검색 파이프라인의 확장'이 아닌 복잡한 환경에서 외부 도구와 메모리를 활용하여 순차적 의사결정을 수행하는 시스템으로 재정의함으로써, 향후 신뢰성 있는 AI 에이전트 개발을 위한 로드맵을 제시합니다.

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

1. 과거 vs 현재: "수동적인 도서관 사서" vs "능동적인 탐정"

2. 이 탐정 (시스템) 은 어떻게 만들어질까? (아키텍처)

3. 왜 이제야 중요해졌을까? (위험과 문제점)

4. 앞으로 어떻게 발전해야 할까? (미래 방향)

요약: 이 논문의 핵심 메시지

논문 요약: Agentic RAG (에이전트 기반 검색 증강 생성) 의 체계화

1. 문제 제기 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 결과 및 통찰 (Results & Insights)

5. 의의 (Significance)

유사한 논문

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance