Each language version is independently generated for its own context, not a direct translation.

📚 KohakuRAG: 책장 정리부터 정답 찾기까지, 똑똑한 비서 이야기

안녕하세요! 오늘 소개해 드릴 논문은 KohakuRAG라는 이름의 새로운 인공지능 시스템에 대한 것입니다. 이 시스템은 방대한 문서 속에서 정답을 찾아내는 '질문 - 답변' 기술을 혁신적으로 개선했습니다.

이 복잡한 기술을 일반인도 쉽게 이해할 수 있도록, 거대한 도서관과 현명한 비서의 이야기를 통해 설명해 드리겠습니다.

🏛️ 배경: 왜 기존 시스템은 고생할까요?

기존의 인공지능 (RAG) 은 도서관에서 책을 찾아 답을 줄 때, 다음과 같은 실수를 자주 했습니다.

책을 찢어버림 (Flat Chunking): 책의 목차나 장 (Chapter) 구조를 무시하고, 그냥 책장을 무작위로 잘라내어 조각조각만 남겼습니다. 그래서 "이 내용이 어느 장의 이야기지?"라는 맥락을 잃어버렸습니다.
단어 장벽 (Vocabulary Mismatch): 사용자가 "전력 효율"이라고 물으면, 책에는 "PUE(전력 사용 효율)"라고 적혀 있어서 찾지 못했습니다. 같은 뜻인데 단어가 달라서 길을 잃은 셈입니다.
우연에 의존함 (Stochastic Answers): 같은 질문을 해도 비서가 오늘은 "A"라고 답하고, 내일은 "B"라고 답하거나, 아예 "모르겠다"고 하며 포기하는 경우가 많았습니다.

🚀 KohakuRAG 의 3 가지 비밀 무기

KohakuRAG 는 이 문제를 해결하기 위해 세 가지 똑똑한 전략을 사용했습니다.

1. 🌳 책의 구조를 그대로 보존한 '나무 지도' (Hierarchical Indexing)

기존 시스템이 책을 잘게 찢었다면, KohakuRAG 는 책의 목차 구조를 그대로 유지합니다.

비유: 도서관에 책을 쌓아두는 대신, 나무처럼 정리했습니다.
- 뿌리: 책 전체 (Document)
- 가지: 장 (Section)
- 잎사귀: 문단 (Paragraph)
- 가장 작은 잎: 문장 (Sentence)
효과: 비서가 "이 문장은 3 장 2 절의 4 번째 문단이야"라고 정확히 알려줄 수 있습니다. 그래서 정답을 찾을 때 출처를 정확히 밝힐 수 있게 되었습니다.

2. 🔍 여러 가지 질문을 던지는 '탐정 팀' (Multi-Query Retrieval)

단 한 번의 질문으로 답을 찾으려 하지 않습니다.

비유: 비서가 혼자서 "전력 효율은?"이라고만 묻지 않고, 팀원들에게 다양한 질문을 시킵니다.
- "전력 사용 효율 (PUE) 은?"
- "데이터센터의 에너지 효율은?"
- "전력 소모량 지표는?"
효과: 책에 적힌 단어가 질문과 달라도, 여러 가지 표현으로 찾아내어 놓친 정보를 모두 모읍니다. 그리고 여러 팀원이 찾은 정보를 비교하여 가장 확실한 답을 골라냅니다.

3. 🗳️ 여러 번 물어보고 투표하는 '합의 과정' (Ensemble Inference)

한 번의 답변을 믿지 않고, 여러 번 시도합니다.

비유: 비서에게 같은 질문을 9 번이나 물어봅니다.
- 9 번 중 7 번이 "A"라고 답하고, 2 번이 "모르겠다"고 한다면?
- 기존 시스템은 "모르겠다"는 답에 흔들렸을 수 있지만, KohakuRAG 는 "A"가 다수결이라고 판단하여 "A"를 정답으로 채택합니다.
- 만약 9 번 모두 "모르겠다"고 한다면, 억지로 답을 지어내지 않고 정직하게 "정보 부족"이라고 답합니다. (이게 바로 '할루시네이션' 방지!)

🏆 실제 성과: WattBot 2025 챌린지 우승

이 시스템은 **'WattBot 2025'**라는 인공지능 대회에 참가했습니다. 이 대회는 32 권의 기술 문서에서 매우 정확한 숫자 (오차 범위 ±0.1%) 를 찾아내고, 출처를 정확히 밝히는 것이 목표였습니다.

결과: KohakuRAG 는 1 위를 차지했습니다!
특이점: 공개된 시험 문제 (Public) 에서 1 위를 했을 뿐만 아니라, 비밀 시험 문제 (Private) 에서도 1 위를 유지했습니다. 다른 팀들은 공개 시험에서 잘하다가 비밀 시험에서 성적이 떨어졌는데, KohakuRAG 는 어떤 상황에서도 일관되게 뛰어난 성능을 보여줬습니다.

💡 핵심 교훈 (간단 요약)

맥락이 생명이다: 문서를 잘게 자르지 말고, 책의 구조 (목차) 를 그대로 살려야 정확한 출처를 찾을 수 있다.
여러 각도로 접근하라: 한 가지 질문만 하지 말고, 다양한 표현으로 찾아야 놓치는 정보가 없다.
집단 지성을 활용하라: 한 번의 답변보다 여러 번의 답변을 모아 투표하는 것이 더 정확하고 안정적이다.

이 기술은 앞으로 우리가 방대한 문서 속에서 정확한 정보를 찾을 때, 인공지능이 더 신뢰할 수 있는 '현명한 비서'가 되어줄 수 있음을 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

이 논문은 WattBot 2025 챌린지를 배경으로 하며, 문서 기반 질문 응답 (QA) 시스템이 직면한 세 가지 근본적인 한계를 해결하고자 합니다.

문맥 구조의 파괴 (Structure Loss): 기존 RAG 시스템은 문서를 고정된 길이의 '플랫 (flat)' 청크로 분할하여 임베딩합니다. 이 과정에서 문서의 논리적 구조 (섹션, 단락, 문장 간의 계층 관계) 가 손실되어 정확한 출처 (Citation) 추적이 어렵습니다.
어휘 불일치 (Vocabulary Mismatch): 단일 쿼리 기반 검색은 사용자의 질문과 원문서의 용어가 다를 때 (예: "PUE" vs "Power Usage Effectiveness") 관련 문서를 놓치는 문제가 발생합니다.
불안정한 추론 (Answer Instability): 단일 LLM 추론은 확률적 특성으로 인해 실행마다 답변 내용과 인용 출처가 달라질 수 있으며, 충분한 증거가 있음에도 불필요하게 답변을 거부 (Abstention) 하는 경우가 많습니다.

WattBot 2025 과제의 특징:

32 개의 기술 문서 (약 50 만 토큰) 에서 AI 에너지 소비 관련 기술 질문에 답해야 함.
엄격한 정확도 요구: 수치 정답은 ±0.1% 오차 범위 내여야 함.
정확한 출처 명시: 답변의 근거가 된 문서 ID 를 정확히 인용해야 함.
할루시네이션 방지: 증거가 부족할 때는 답을 내지 않고 '거부 (Abstention)'해야 함.

2. 방법론 (Methodology: KohakuRAG)

저자는 KohakuRAG라는 계층적 RAG 프레임워크를 제안하며, 세 가지 핵심 메커니즘을 통해 위 문제들을 해결합니다.

가. 계층적 문서 인덱싱 (Hierarchical Document Indexing)

4 단계 트리 구조: 문서를 문서 (Document) → 섹션 (Section) → 단락 (Paragraph) → 문장 (Sentence)의 4 단계 계층 구조로 파싱합니다.
Bottom-up 임베딩 집계:
- 리프 노드 (문장) 에 임베딩을 생성합니다.
- 부모 노드 (단락, 섹션) 는 자식 노드의 임베딩을 **길이 가중치 (token count)**를 적용하여 평균화 (Weighted Average) 하여 생성합니다.
- 이를 통해 상위 계층의 임베딩이 하위 계층의 의미적 구성을 포착하면서도, 각 단계에서 자연스러운 인용 경계를 제공합니다.
멀티모달 처리: 이미지와 표는 특수 단락 노드로 처리되며, VLM(Qwen-VL 등) 을 통해 생성된 캡션이 텍스트로 저장되어 검색 가능합니다.

나. 다중 쿼리 검색 및 크로스-쿼리 재랭킹 (Multi-Query Retrieval & Reranking)

LLM 기반 쿼리 플래너: 입력 질문에 대해 LLM 이 다양한 표현, 약어 확장, 하위 질문 분해 등을 통해 $n$ 개의 관련 쿼리를 생성합니다.
밀집 검색 (Dense Retrieval): 각 쿼리에 대해 Top-K 노드를 검색합니다.
크로스-쿼리 재랭킹: 여러 쿼리에서 검색된 결과를 통합하여 재랭킹합니다.
- 빈도 기반: 여러 쿼리에 의해 검색된 노드가 상위로 배치됩니다.
- 점수 기반: 전체 유사도 점수를 합산합니다.
- 결합 전략: 빈도와 점수를 정규화하여 가중 합산합니다. 이는 어휘 불일치를 해결하고 관련성 높은 패시지를 찾아냅니다.

다. 앙상블 추론 및 거부 인식 투표 (Ensemble Inference with Abstention-Aware Voting)

다중 실행 (m runs): 동일한 질문에 대해 $m$ 번의 독립적인 추론을 수행합니다.
재시도 메커니즘 (Retry Mechanism): LLM 이 증거 부족으로 답변을 거부 (is_blank=true) 할 경우, 검색 깊이 ( $k$ ) 를 늘려 컨텍스트를 확장하고 다시 추론합니다.
거부 인식 투표 (Abstention-Aware Voting):
- 빈 (Blank) 답변을 필터링한 후 나머지 답변에 대해 다수결 투표 (Majority Voting) 를 수행합니다.
- 이는 증거가 존재함에도 불구하고 보수적으로 답변을 거부하는 경우를 방지하고, 일관된 정답을 도출합니다.

3. 주요 기여 (Key Contributions)

계층적 인덱싱 스키마: 문서 구조를 보존하는 4 단계 트리 표현과 Bottom-up 임베딩 집계를 통해 정밀한 출처 추적을 가능하게 함.
LLM 기반 쿼리 플래닝: 다중 쿼리 생성과 크로스-쿼리 재랭킹을 통해 검색 커버리지를 극대화하고 어휘 불일치 문제를 해결함.
거부 인식 앙상블: 불필요한 거부를 필터링하고 다수결 투표를 적용하여 답변의 안정성과 정확도를 동시에 향상시킴.
실험적 통찰:
- 프롬프트 순서 변경 (컨텍스트를 질문 앞에 배치) 이 성능을 +80% 향상시킴.
- 재시도 메커니즘이 저검색 깊이에서 **+69%**의 상대적 개선을 제공함.
- 계층적 밀집 검색만으로도 하이브리드 (BM25+Dense) 접근법과 경쟁력 있는 성능을 보이며, BM25 는 추가적으로 +3.1pp의 이점만 제공함.

4. 실험 결과 (Results)

WattBot 2025 챌린지에서 KohakuRAG 는 공식 및 비공식 리더보드 모두에서 1 위를 차지했습니다.

최종 점수: 0.861 (Private Leaderboard 기준).
독보적 성과: 공개 리더보드 1 위에서 비공개 리더보드 1 위를 유지한 유일한 팀이었습니다. (다른 상위 팀들은 공개/비공개 점수 간 큰 변동 (-0.046 등) 을 보였습니다.)
성분 분석 (Ablation Study):
- 프롬프트 순서: 질문을 컨텍스트 뒤에 배치하는 것이 "Lost in the Middle" 현상을 완화하여 성능을 크게 향상시킴.
- 앙상블 크기: 앙상블 크기가 9~11 일 때 성능이 포화되며, ignore blank 옵션을 켜면 성능이 약 1.2pp 추가 향상됨.
- 모델 비교: Grok-4.1-fast 가 단일 모델 기준으로 가장 높은 성능을 보였으며, 다양한 모델 (Gemini, GPT-oss 등) 의 앙상블이 분포 변화에 대한 강건성을 제공함.

5. 의의 및 결론 (Significance)

이 논문은 RAG 시스템의 성능을 극대화하기 위해 단순한 검색 최적화를 넘어 구조적, 전략적 접근이 필수적임을 증명했습니다.

구조의 중요성: 문서의 계층적 구조를 보존하는 인덱싱이 단순한 청킹보다 정밀한 인용과 의미 이해에 훨씬 효과적입니다.
강건성 (Robustness): 단일 모델의 추론 불안정성을 해결하기 위해 앙상블과 재시도 메커니즘을 도입함으로써, 공개 데이터와 비공개 데이터 간의 분포 차이 (Distribution Shift) 에도 일관된 성능을 유지할 수 있음을 보여줍니다.
실용적 통찰: 복잡한 하이브리드 검색보다는 잘 설계된 밀집 검색과 프롬프트 엔지니어링 (순서 변경), 그리고 오류 수정 메커니즘 (재시도) 이 더 큰 효과를 가져올 수 있음을 시사합니다.

KohakuRAG 는 오픈소스로 공개되어 (GitHub), 향후 고도정밀도가 요구되는 전문 분야 RAG 시스템 개발의 벤치마크 및 기반 기술로 활용될 것으로 기대됩니다.

KohakuRAG: A simple RAG framework with hierarchical document indexing