KohakuRAG: A simple RAG framework with hierarchical document indexing

이 논문은 문서 구조를 보존하는 계층적 인덱싱, LLM 기반 쿼리 계획, 그리고 앙상블 추론을 통해 정밀한 인용이 요구되는 기술적 질문에 대한 답변 정확도와 일관성을 극대화하여 WattBot 2025 챌린지 1 위를 차지한 새로운 RAG 프레임워크 'KohakuRAG'를 제안합니다.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

📚 KohakuRAG: 책장 정리부터 정답 찾기까지, 똑똑한 비서 이야기

안녕하세요! 오늘 소개해 드릴 논문은 KohakuRAG라는 이름의 새로운 인공지능 시스템에 대한 것입니다. 이 시스템은 방대한 문서 속에서 정답을 찾아내는 '질문 - 답변' 기술을 혁신적으로 개선했습니다.

이 복잡한 기술을 일반인도 쉽게 이해할 수 있도록, 거대한 도서관현명한 비서의 이야기를 통해 설명해 드리겠습니다.


🏛️ 배경: 왜 기존 시스템은 고생할까요?

기존의 인공지능 (RAG) 은 도서관에서 책을 찾아 답을 줄 때, 다음과 같은 실수를 자주 했습니다.

  1. 책을 찢어버림 (Flat Chunking): 책의 목차나 장 (Chapter) 구조를 무시하고, 그냥 책장을 무작위로 잘라내어 조각조각만 남겼습니다. 그래서 "이 내용이 어느 장의 이야기지?"라는 맥락을 잃어버렸습니다.
  2. 단어 장벽 (Vocabulary Mismatch): 사용자가 "전력 효율"이라고 물으면, 책에는 "PUE(전력 사용 효율)"라고 적혀 있어서 찾지 못했습니다. 같은 뜻인데 단어가 달라서 길을 잃은 셈입니다.
  3. 우연에 의존함 (Stochastic Answers): 같은 질문을 해도 비서가 오늘은 "A"라고 답하고, 내일은 "B"라고 답하거나, 아예 "모르겠다"고 하며 포기하는 경우가 많았습니다.

🚀 KohakuRAG 의 3 가지 비밀 무기

KohakuRAG 는 이 문제를 해결하기 위해 세 가지 똑똑한 전략을 사용했습니다.

1. 🌳 책의 구조를 그대로 보존한 '나무 지도' (Hierarchical Indexing)

기존 시스템이 책을 잘게 찢었다면, KohakuRAG 는 책의 목차 구조를 그대로 유지합니다.

  • 비유: 도서관에 책을 쌓아두는 대신, 나무처럼 정리했습니다.
    • 뿌리: 책 전체 (Document)
    • 가지: 장 (Section)
    • 잎사귀: 문단 (Paragraph)
    • 가장 작은 잎: 문장 (Sentence)
  • 효과: 비서가 "이 문장은 3 장 2 절의 4 번째 문단이야"라고 정확히 알려줄 수 있습니다. 그래서 정답을 찾을 때 출처를 정확히 밝힐 수 있게 되었습니다.

2. 🔍 여러 가지 질문을 던지는 '탐정 팀' (Multi-Query Retrieval)

단 한 번의 질문으로 답을 찾으려 하지 않습니다.

  • 비유: 비서가 혼자서 "전력 효율은?"이라고만 묻지 않고, 팀원들에게 다양한 질문을 시킵니다.
    • "전력 사용 효율 (PUE) 은?"
    • "데이터센터의 에너지 효율은?"
    • "전력 소모량 지표는?"
  • 효과: 책에 적힌 단어가 질문과 달라도, 여러 가지 표현으로 찾아내어 놓친 정보를 모두 모읍니다. 그리고 여러 팀원이 찾은 정보를 비교하여 가장 확실한 답을 골라냅니다.

3. 🗳️ 여러 번 물어보고 투표하는 '합의 과정' (Ensemble Inference)

한 번의 답변을 믿지 않고, 여러 번 시도합니다.

  • 비유: 비서에게 같은 질문을 9 번이나 물어봅니다.
    • 9 번 중 7 번이 "A"라고 답하고, 2 번이 "모르겠다"고 한다면?
    • 기존 시스템은 "모르겠다"는 답에 흔들렸을 수 있지만, KohakuRAG 는 "A"가 다수결이라고 판단하여 "A"를 정답으로 채택합니다.
    • 만약 9 번 모두 "모르겠다"고 한다면, 억지로 답을 지어내지 않고 정직하게 "정보 부족"이라고 답합니다. (이게 바로 '할루시네이션' 방지!)

🏆 실제 성과: WattBot 2025 챌린지 우승

이 시스템은 **'WattBot 2025'**라는 인공지능 대회에 참가했습니다. 이 대회는 32 권의 기술 문서에서 매우 정확한 숫자 (오차 범위 ±0.1%) 를 찾아내고, 출처를 정확히 밝히는 것이 목표였습니다.

  • 결과: KohakuRAG 는 1 위를 차지했습니다!
  • 특이점: 공개된 시험 문제 (Public) 에서 1 위를 했을 뿐만 아니라, 비밀 시험 문제 (Private) 에서도 1 위를 유지했습니다. 다른 팀들은 공개 시험에서 잘하다가 비밀 시험에서 성적이 떨어졌는데, KohakuRAG 는 어떤 상황에서도 일관되게 뛰어난 성능을 보여줬습니다.

💡 핵심 교훈 (간단 요약)

  1. 맥락이 생명이다: 문서를 잘게 자르지 말고, 책의 구조 (목차) 를 그대로 살려야 정확한 출처를 찾을 수 있다.
  2. 여러 각도로 접근하라: 한 가지 질문만 하지 말고, 다양한 표현으로 찾아야 놓치는 정보가 없다.
  3. 집단 지성을 활용하라: 한 번의 답변보다 여러 번의 답변을 모아 투표하는 것이 더 정확하고 안정적이다.

이 기술은 앞으로 우리가 방대한 문서 속에서 정확한 정보를 찾을 때, 인공지능이 더 신뢰할 수 있는 '현명한 비서'가 되어줄 수 있음을 보여줍니다.