KohakuRAG: A simple RAG framework with hierarchical document indexing

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 KohakuRAG 的聪明系统，它专门用来帮大语言模型（LLM）从一堆厚厚的文档里找答案。

想象一下，你是一位超级侦探，手里有 32 本关于“人工智能能耗”的厚厚技术手册（总共约 50 万字的篇幅）。现在，有人问你一个非常具体的问题，比如："Google 数据中心的 PUE 值是多少？”（PUE 是衡量数据中心能源效率的指标）。

传统的搜索方法就像是用一把大锤子去砸这些书：

切得太碎：它把书撕成一个个固定长度的碎片，不管这些碎片是不是完整的段落或句子。这就像把一本精美的食谱撕成碎片，你再也分不清哪块是“材料”，哪块是“步骤”了。
问法太死板：如果你问"PUE 是多少”，但书里写的是“电源使用效率”，传统的搜索可能因为词汇不同就找不到答案。
运气成分大：每次问同一个问题，模型给出的答案和引用的书页可能都不一样，甚至有时候明明答案就在书里，它却假装不知道（放弃回答）。

KohakuRAG 就是为了解决这些问题而生的“超级侦探助手”。它用了三个绝招：

1. 像搭积木一样整理文档（分层索引）

传统的搜索是把书撕碎，而 KohakuRAG 把文档看作一棵大树：

树干是整本书。
树枝是章节。
树叶是段落。
最细的叶脉是句子。

它不是乱切，而是按照这个结构，从最底下的“句子”开始，一层层往上汇总信息。这样，当它找到答案时，不仅能告诉你答案，还能精准地指出：“这个答案来自第 3 章第 2 节的第 5 句话”，就像给你指路时不仅说“在图书馆”，还说“在 3 楼 A 区第 2 排书架的第 5 本书”一样精准。

2. 派出多个“翻译官”去问路（多查询与重排序）

有时候，书里的用词和你问的问题不一样（比如你问"PUE"，书里写“能效比”）。
KohakuRAG 不会只问一次。它先派一个AI 策划员，把你的问题“翻译”成好几种不同的说法（比如：“谷歌数据中心的能效比”、“电源使用效率指标”等），然后同时派出好几个“搜索小队”去书里找。

找回来后，它还会搞一个**“投票环节”**：如果某个段落被好几个小队都找到了，那它肯定是最重要的，排名就靠前。这就像如果你问路，有 5 个路人都指向同一个方向，那这个方向大概率是对的。

3. 组建“专家会诊团”（集成推理与去噪）

大模型有时候会“抽风”，同一个问题问它十次，可能给出十个不同的答案，或者明明有答案却假装不知道（这叫“过度放弃”）。
KohakuRAG 的做法是：不要只问一个人，要问一群人！
它让同一个模型独立运行 9 次（或者更多），收集所有答案。

过滤“装傻”的：如果其中几次模型说“我不知道”，但其他几次都给出了具体答案，系统会忽略那些“装傻”的，只采纳有答案的。
少数服从多数：最后通过投票，选出出现次数最多的那个答案作为最终结果。

这就好比医生看病，如果 9 个专家里有 7 个说“是感冒”，1 个说“不知道”，1 个说“是流感”，那大概率就是感冒。

为什么它这么厉害？

在最近的 WattBot 2025 挑战赛中，参赛者需要从 32 份文档中回答 300 个极其刁钻的技术问题，要求答案误差不能超过 0.1%，而且必须精确引用出处。

传统方法：经常找不到答案，或者引用错了页码。
KohakuRAG：它拿到了第一名！而且是在公开榜单和秘密榜单上都拿了第一。

它的成功秘诀总结起来就是：

把书读透：不仅看内容，还保留书的目录结构（分层索引）。
多问几遍：用不同的方式问同一个问题，确保不漏掉任何线索（多查询）。
大家商量：不让一个模型“独断专行”，而是让多个结果互相验证（集成投票）。

这就好比，以前是派一个士兵去探路，容易迷路或看错；现在是派一个特种部队，有侦察兵（分层索引）、翻译官（多查询）和指挥官（投票机制），确保任务万无一失。

这篇论文不仅展示了如何构建这样一个系统，还开源了代码，让其他人也能用这套“特种部队”的战术来解决自己的文档搜索难题。

Each language version is independently generated for its own context, not a direct translation.

论文标题: KohakuRAG: A simple RAG framework with hierarchical document indexing

作者: Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu
机构: 国立清华大学, Comfy Org Research, Kohaku-Lab

1. 问题背景与挑战 (Problem)

检索增强生成（RAG）系统在需要高精度引用的场景下面临三大核心挑战，特别是在处理大规模技术文档（如 WattBot 2025 挑战中的 32 份 AI 能耗报告，约 50 万 Token）时：

文档结构丢失 (Structure Loss): 传统的扁平化分块（Flat Chunking）策略将文档切分为固定长度的片段，破坏了文档原有的层级结构（如章节、段落、句子），导致难以进行精确的引用追踪（Citation Tracking）。
词汇不匹配 (Vocabulary Mismatch): 单一查询（Single-query）往往无法覆盖源文档中的不同术语或缩写（例如用户问"PUE"，文档中写的是"Power Usage Effectiveness"），导致检索覆盖率不足。
答案不稳定性 (Answer Instability): 单次推理具有随机性，导致不同运行间的内容和引用选择不一致。此外，模型在面对难以定位的证据时，倾向于过度“拒绝回答”（Abstention），即使证据实际上存在。

WattBot 2025 Challenge 的特殊性:

高精度要求: 数值答案需在 ±0.1% 的容差范围内。
严格引用: 必须精确引用来源文档 ID。
拒绝机制: 当证据不足时必须明确拒绝回答，否则视为幻觉。

2. 方法论 (Methodology)

KohakuRAG 提出了一种分层 RAG 框架，通过三个核心机制解决上述问题：

2.1 分层文档索引 (Hierarchical Document Indexing)

树状结构: 将文档解析为四层树结构：文档 (Document) → 章节 (Section) → 段落 (Paragraph) → 句子 (Sentence)。
自底向上的嵌入聚合 (Bottom-up Embedding Aggregation):
- 叶子节点（句子）直接编码。
- 内部节点（段落、章节、文档）的嵌入是其子节点嵌入的长度加权平均（ $w_c = |t_c|$ ）。
- 优势: 既保留了细粒度的语义，又通过高层节点捕获了组合语义，同时天然支持精确的引用边界追踪。
多模态支持: 对于图表，使用 VLM（如 Qwen-VL）生成描述性标题作为段落节点内容，或直接使用 Jina v4 进行图像嵌入。

2.2 多查询检索与交叉重排序 (Multi-Query Retrieval with Cross-Query Reranking)

LLM 驱动的查询规划器 (Query Planner): 针对用户问题，LLM 生成 $n$ 个语义相关的变体查询（包括同义词替换、缩写展开、问题分解等），以覆盖不同的术语表达。
交叉查询重排序 (Cross-Query Reranking):
- 收集所有查询检索到的 Top-K 结果。
- 基于共识信号 (Consensus Signals) 进行重排序：被多个查询同时检索到的节点排名更高。
- 策略包括：频率优先、分数优先、或两者结合的加权策略。
分层上下文扩展: 检索到节点后，自动包含其父节点（提供宏观背景）和兄弟节点（提供局部上下文），无需重复检索。

2.3 集成推理与拒绝感知投票 (Ensemble Inference with Abstention-Aware Voting)

多轮独立推理: 对同一问题运行 $m$ 次独立的 LLM 推理（温度 $>0$ ）。
拒绝感知 (Abstention-Aware):
- 如果模型输出 is_blank=true（表示证据不足），系统会触发重试机制：增加检索深度 $k$ 并重新检索，直到获得有效答案或达到重试上限。
- 投票策略: 在聚合投票前，过滤掉空白回答 (Blank Filtering)。这防止了保守的推理轮次在证据存在但难以定位时主导投票结果。
- 多数投票: 对答案和引用集进行多数投票（如 AnswerPriority 模式），确保引用与最终答案一致。

2.4 提示词优化 (Prompt Ordering)

实验发现，将上下文置于问题之前（Context $\to$ Question）比传统顺序（Question $\to$ Context）效果更好，有效缓解了 LLM 的“中间迷失”（Lost in the Middle）现象。

3. 主要贡献 (Key Contributions)

分层索引方案: 提出了一种基于四层树结构和自底向上嵌入聚合的索引方法，在保持文档结构的同时实现了精确的引用追踪。
查询规划与共识重排序: 利用 LLM 扩展查询并结合交叉重排序，显著提升了检索覆盖率，解决了词汇不匹配问题。
拒绝感知的集成推理: 设计了一种包含空白过滤和重试机制的集成投票策略，有效解决了“过度拒绝回答”这一主要错误模式（占失败案例的 26.8%）。
实证发现:
- 提示词顺序的影响巨大（相对提升 +80%）。
- 重试机制在低检索深度下提升显著（+69%）。
- 分层稠密检索本身已具备极强竞争力，混合稀疏检索（BM25）带来的提升有限（仅 +3.1pp），表明在结构丰富的检索中，关键词匹配的边际效益递减。

4. 实验结果 (Results)

在 WattBot 2025 Challenge 上的表现：

最终成绩: 第一名（Public Leaderboard: 0.902, Private Leaderboard: 0.861）。
唯一性: 是唯一在公共榜单和私有榜单均保持第一名的团队。
鲁棒性: 相比其他团队在私有榜单上分数大幅下降（如 Public #2 跌至 Private #4，下降 0.046），KohakuRAG 的分数波动极小（-0.041），证明了其泛化能力。
消融实验关键数据:
- Prompt 重排: 0.418 $\to$ 0.752 (k=4, +80%)。
- 重试机制: 0.488 $\to$ 0.827 (k=4, +69%)。
- 集成投票 (n=9, 过滤空白): 提升 1.2 个百分点。
- BM25 混合检索: 仅带来 +3.1pp 的提升，验证了分层稠密检索的有效性。
模型选择: 使用 Grok-4.1-fast 作为生成器表现最佳，但集成方法（Ensemble）比单一模型更稳定。

5. 意义与影响 (Significance)

重新定义 RAG 架构: 证明了在需要高精度引用的任务中，保留文档结构（分层索引）比单纯依赖混合检索（Hybrid Search）更为关键。
解决“拒绝回答”痛点: 揭示了 RAG 系统中“过度保守”是主要错误来源，并提供了通过重试机制和空白过滤投票的有效解决方案。
工程实践指导:
- 提示词工程: 强调上下文顺序对长文本理解的重要性。
- 成本与性能平衡: 展示了集成推理（Ensemble）虽然增加了计算成本，但在提升鲁棒性和泛化能力方面具有不可替代的作用，特别是在面对分布偏移（Distribution Shift）时。
开源贡献: 代码已开源，为构建高精度、可解释的 RAG 系统提供了可复现的基准框架。

总结: KohakuRAG 通过结构化的文档表示、智能的查询扩展以及稳健的集成推理策略，成功解决了高精度 RAG 任务中的结构丢失、检索覆盖不足和答案不稳定三大难题，在极具挑战性的 WattBot 2025 竞赛中确立了新的标杆。