Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HELIOS 的新系统，它的任务是帮助计算机在回答复杂问题时，能同时从表格（像 Excel 那样的数据）和文章（像维基百科那样的文字）中找到最准确的答案。

想象一下，你正在玩一个超级难的“寻宝游戏”。宝藏（答案）可能藏在一张复杂的表格数据里，也可能藏在一段长长的故事里，甚至需要你把表格里的数字和文章里的故事拼凑起来才能找到。

以前的寻宝方法主要有两种，但都有缺点：

早融合（Early Fusion）：就像在出发前，先把所有可能相关的线索强行捆在一起打包。
- 缺点：包里塞了太多垃圾（不相关的信息），而且如果线索之间没有明显的“名字”联系，它就把它们分开了，导致找不到那些需要动脑筋才能连起来的线索。
晚融合（Late Fusion）：就像先单独找每一张线索卡片，然后再试图把它们拼起来。
- 缺点：容易漏掉重要的背景信息，或者因为线索太多太杂，把错误的线索当成了正确的。

HELIOS 是怎么做的？
HELIOS 就像是一个拥有超级大脑的侦探，它把上述两种方法结合了起来，分三步走：

第一步：像“连点成线”一样精准搜索（边级检索）

以前的方法要么找整块（容易带垃圾），要么找单点（容易漏背景）。
HELIOS 发明了一种叫“边（Edge）”的概念。想象表格和文章是地图上的两个点，HELIOS 不找整块地图，也不只找孤立的点，而是专门找连接点和点的“线”。

比喻：如果表格是“球员名单”，文章是“球员简介”。以前的方法要么把整张名单和所有简介都塞给你（太乱），要么只给你看名字。HELIOS 直接给你看“名字”和“简介”之间那条特定的连线。这样既不会漏掉背景，也不会被无关信息干扰。

第二步：像“顺藤摸瓜”一样动态扩展（节点扩展）

找到几条关键的线后，HELIOS 不会停步。它会问：“这条线通向哪里？那里还有没有更重要的线索？”

比喻：你找到了“球员 A"的简介，HELIOS 会立刻顺着线索去查“球员 A 所在的球队”、“球队的主教练”等。它像一个聪明的侦探，根据你问的问题（Query），动态地扩大搜索范围，把那些藏在深处的、原本没被注意到的关键信息（比如球队的颜色、教练的生日）都挖出来。

第三步：像“大律师”一样逻辑推理（基于星图的 LLM 推理）

这是 HELIOS 最厉害的地方。前面的步骤找出了很多线索，但有些问题需要逻辑推理，比如“谁是最年轻的？”或者“把某几列加起来是多少？”。普通的搜索引擎只会找关键词，不懂逻辑。
HELIOS 把找到的线索整理成一个个小的“星形图”（一个中心点连着几个周边点），然后交给一个大语言模型（LLM），就像请了一位大律师来审案。

比喻：
- 场景：问题是“谁在 2012 年选秀中被第 27 顺位选中？他的学校校色是什么？”
- 普通搜索：可能只找到“第 27 顺位”和“学校名字”，但找不到校色，因为校色在另一段文字里，和表格没有直接关键词联系。
- HELIOS 的律师：它会看表格，发现第 27 顺位是"Brendan King"，学校是"Notre Dame"。然后它立刻去检查关于"Notre Dame"的文章，发现文章里写着“校色是金色和蓝色”。它能把表格里的数字逻辑和文章里的描述逻辑完美结合起来，给出正确答案。

总结：HELIOS 为什么强？

不盲目：它不像以前的方法那样要么太粗（带垃圾），要么太细（漏背景），而是刚刚好（边级检索）。
会思考：它不只是找关键词，还能像人一样进行多步推理（比如先查 A，再根据 A 查 B，最后得出结论）。
结果好：在测试中，HELIOS 的表现比目前最顶尖的系统强了40% 以上。

一句话概括：
HELIOS 就像一个既懂数据又懂故事，还能像侦探一样顺藤摸瓜、像律师一样逻辑推理的超级助手，它能把表格和文字完美融合，帮你找到那些最难找的答案。

Each language version is independently generated for its own context, not a direct translation.

HELIOS 技术总结：协调早期融合、晚期融合与大语言模型推理的多粒度表格 - 文本检索

1. 研究背景与问题定义

背景：开放域问答（ODQA）系统通常需要从非结构化文本和结构化表格中检索信息。现有的“表格 - 文本检索”（Table-Text Retrieval）方法旨在同时检索相关的表格行和文本段落以支持问答。
核心挑战：现有方法主要分为早期融合（Early Fusion）和晚期融合（Late Fusion），但两者均存在显著局限性：

检索粒度的不足：
- 早期融合（如 Fusion-Retriever）：通过实体链接将表格行与关联段落预先合并为“融合块”（Fused Blocks，即星形图）。这往往包含大量与查询无关的上下文，导致相似度计算失真。
- 晚期融合（如 COS）：动态检索独立的表格片段或段落。虽然灵活，但容易遗漏重要的关联上下文，且可能因部分匹配而检索到错误的表格（例如，仅因共享"Grammy"一词而混淆不同的奖项表）。
缺失查询依赖的关系：早期融合依赖预定义的实体链接，无法捕捉特定查询下才显现的复杂关系（例如，查询“校色”需要链接到“校队”段落，而非仅链接到“大学”实体）。
缺乏高级推理能力：现有方法主要依赖语义相似度，难以处理需要列聚合（如“找出最高分”）或多跳推理（Multi-hop reasoning）的复杂查询。

2. 方法论：HELIOS 框架

HELIOS 提出了一种基于图的新颖检索框架，通过多粒度（Multi-Granular）策略，分三个阶段协调早期融合、晚期融合与大语言模型（LLM）推理的优势。

2.1 图表示基础

将表格片段（Table Segments）和文本段落（Passages）视为二分图（Bipartite Graph）中的两类节点，它们之间的关联视为边（Edges）。

早期融合块 = 以表格节点为中心的星形图（Star Graph）。
晚期融合证据链 = 连接表格节点和段落节点的边（Edge）。

2.2 三阶段检索流程

第一阶段：基于边的二分图子图检索 (Edge-based Bipartite Subgraph Retrieval)

目标：解决早期融合中“噪声上下文”的问题，同时避免晚期融合中“信息碎片化”的问题。
机制：
1. 离线构建：利用实体识别和链接构建初始二分图 $G_d$ ，边代表表格片段与段落的关联。
2. 边级检索：不再检索整个星形图或单个节点，而是检索边（Edge）。将边线性化后，使用多向量编码器（ColBERTv2）进行细粒度嵌入。
3. 重排序：通过全交互重排序器（Reranker）筛选出与查询最相关的 Top-k 条边，形成候选子图 $G_c$ 。
优势：边比节点包含更多上下文信息，比星形图更精细，有效平衡了信息损失与噪声。

第二阶段：查询相关节点扩展 (Query-relevant Node Expansion, QNE)

目标：解决早期融合遗漏“查询依赖关系”的问题，动态发现候选子图中缺失的关键节点。
机制：
1. 种子节点选择：在候选子图 $G_c$ 中，利用重排序器识别与查询最相关的节点作为“种子”。
2. 节点扩展：基于种子节点，利用扩展查询检索技术（Expanded Query Retrieval），在完整二分图中搜索与种子节点相连的新边。
3. 光束搜索（Beam Search）：通过两步光束搜索策略，动态扩展图结构，形成扩展图 $G_l$ 。
优势：能够捕捉离线实体链接未覆盖的、特定于查询的复杂关系。

第三阶段：基于星形图的 LLM 细化 (Star-based LLM Refinement)

目标：解决现有方法无法进行高级逻辑推理（如列聚合、多跳推理）的问题。
机制：
1. 聚合检测：LLM 首先判断查询是否需要聚合操作（如“最大值”、“最近”）。
2. 列聚合：若需聚合，LLM 恢复原始表格结构，执行逻辑推理（如按月份排序找出最新记录），并返回对应的表格行。
3. 段落验证：将扩展后的图分解为多个星形图（Star Graphs），分别输入 LLM 进行二元验证，剔除与查询无关的“硬负例”段落。
4. 输出：生成最终精炼的边评分图 $G_q$ ，按相关性排序输出。
优势：利用 LLM 的推理能力弥补语义匹配的不足，且通过“星形图”分解减少了 LLM 的幻觉风险。

3. 关键贡献

多粒度融合策略：首次系统性地结合了早期融合（预对齐）和晚期融合（动态匹配）的优点，并在不同阶段采用不同的检索粒度（边、节点、星形图），解决了单一粒度带来的局限性。
动态图扩展机制：提出了查询相关的节点扩展（QNE），通过光束搜索动态补充离线链接中缺失的关键上下文。
基于星形图的 LLM 推理：设计了将大图分解为星形图输入 LLM 的策略，有效支持了列聚合和多跳推理任务，同时降低了幻觉风险。
细粒度边检索：证明了以“边”作为检索单元比“节点”或“星形图”更能平衡信息丰富度与噪声控制。

4. 实验结果

在 OTT-QA（开放域表格 - 文本问答）和 **MultimodalQA **(MMQA) 数据集上进行了广泛评估。

检索性能（OTT-QA）：
- Recall@2：HELIOS 达到 63.3%，比当前最先进（SOTA）模型 COS 高出 42.6%。
- nDCG@50：HELIOS 达到 47.0，比 COS 提升 39.9%。
- Hits@4K：提升 12.2%，表明检索到的证据更有可能包含在最终答案的上下文中。
端到端问答性能：
- 在 OTT-QA 测试集上，HELIOS 的 **EM **(Exact Match) 和 F1 分数分别比 COS 高出 3.8% 和 4.6%。
- 在不同阅读器（Llama-3.1-70B, GPT-4o）下，HELIOS 均表现出显著的性能提升，证明了其检索结果的高质量。
消融实验：
- 移除 QNE 模块导致 AR 平均下降 2.1%，证明了动态扩展的重要性。
- 移除 LLM 细化模块（SLR）导致 AR@2 下降 5.5%，证明了高级推理对复杂查询的关键作用。
效率：HELIOS 的执行时间约为 5.14 秒，在保持高准确率的同时，通过光束搜索策略实现了比全量扩展更优的效率平衡。

5. 意义与影响

HELIOS 为表格 - 文本检索领域提供了一个新的范式：

理论突破：它打破了早期融合与晚期融合的二元对立，证明了通过多粒度图检索可以协同两者的优势。
推理增强：成功将 LLM 的逻辑推理能力集成到检索阶段，而不仅仅是作为最终的答案生成器，显著提升了处理复杂多跳和聚合查询的能力。
实际应用：在开放域问答场景中，HELIOS 能够更准确地定位分散在表格和文本中的关键信息，为构建更智能的 RAG（检索增强生成）系统提供了强有力的基础。

综上所述，HELIOS 通过精细的图结构设计和 LLM 推理的巧妙结合，显著解决了现有表格 - 文本检索方法在粒度、上下文关联和逻辑推理方面的瓶颈，是目前该领域的 SOTA 解决方案。

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval