On the Theoretical Limitations of Embedding-Based Retrieval
该论文通过理论推导与实证实验证明,基于单向量嵌入的检索方法存在根本性的维度限制,导致其无法在现实场景下处理简单的查询组合,从而揭示了现有嵌入模型在应对多样化检索任务时的固有缺陷。
152 篇论文
该论文通过理论推导与实证实验证明,基于单向量嵌入的检索方法存在根本性的维度限制,导致其无法在现实场景下处理简单的查询组合,从而揭示了现有嵌入模型在应对多样化检索任务时的固有缺陷。
该论文提出了 Mobile-Agent-RAG 框架,通过构建分层多智能体系统并引入针对高层规划与底层执行的双级检索增强机制,有效解决了现有移动智能体在长周期跨应用任务中因过度依赖静态知识而导致的策略幻觉与操作错误问题,显著提升了任务完成率与执行效率。
本文提出了首个标准化的位置感知信息检索基准 PosIR,通过涵盖多语言多领域的数据集及长度控制策略,系统性地揭示了现有检索模型中普遍存在且随文档长度加剧的位置偏差问题,并深入分析了其内部机制。
本文提出了 SLATE 框架,通过结合截断步级采样与基于 LLM 评判器的密集分解奖励机制,有效解决了检索增强推理中的信用分配难题,显著降低了策略梯度的方差并提升了模型在复杂多跳任务上的表现。
该论文发布了名为 OpenSanctions Pairs 的大规模实体匹配基准数据集,并通过实验证明开源与闭源大语言模型在零样本和少样本设置下均显著优于传统规则基线,从而推动实体解析研究从配对匹配转向阻塞、聚类及不确定性审查等后续流程优化。
该论文提出了一种名为 MDER-DR 的领域无关知识图谱问答框架,通过“映射 - 消歧 - 丰富 - 缩减”索引策略生成实体级摘要,并结合“分解 - 解决”检索机制进行迭代推理,从而在无需显式遍历图结构的情况下显著提升了多跳问答性能并保持了跨语言鲁棒性。
该论文通过将导航视为受记忆约束的序贯决策问题,扩展了信息嗅探理论,提出用户基于局部与全局线索进行“适度”检查而非全盘扫描的模型,成功解释了试错导航中的 premature 选择、误入歧途及回退恢复等关键行为。
本文通过以 YouTube 为例,深入探讨了审计方法论中关键配置决策(如是否使用登录账户)对算法偏见推断准确性的显著影响,并提出了在保障推断精度的同时降低审计经济与技术成本的优化策略。
本文提出了名为 Agent-OM 的新型大语言模型代理框架,通过双 Siamese 代理与专用工具协同工作,在简单本体匹配任务上达到顶尖性能,并在复杂及少样本任务中显著优于现有最先进系统。
本文提出了 LEXA 模型,通过结合图注意力机制、图对比学习以及大语言模型生成的上下文嵌入,有效解决了法律案例检索中结构信息利用不足和训练信号匮乏的问题,从而在基准数据集上实现了超越现有最先进方法的性能。
本文针对现有向量检索方法在平衡相似度与多样性时缺乏理论分析且依赖人工调参的问题,形式化定义了 NP 完全的 VRSD 优化问题,并提出了一种无需参数的启发式算法,实验证明其在多个科学问答数据集上显著优于 MMR 和 k-DPP 等基线方法。
本文提出了名为 AMPEND-LS 的代理多角色框架,通过结合大语言模型与小语言模型的协同机制、多模态证据检索及可信度融合策略,显著提升了多模态假新闻检测的准确性、鲁棒性与可解释性。
本文提出了一种可扩展的 CopulaGNN 改进方法,通过利用边缘嵌入的格拉姆矩阵表示相关性矩阵并重构条件概率分布,在解决有符号图链接符号预测中计算不可行问题的同时,实现了比基线更快的线性收敛速度并保持竞争性的预测性能。
该研究基于 Web of Science 数据库对 2014 至 2023 年禽流感文献进行科学计量分析,揭示了全球发文量稳步增长、中美机构主导产出、核心期刊影响力显著以及国际合作日益紧密的研究格局。
该论文通过独立控制查询与文档侧的归一化,系统揭示了嵌入向量模长在对比学习中对检索和 RAG 任务具有显著增益(尤其在跨域泛化方面),并指出其作用机制与语义相似度任务不同,为多模态检索提供了关键的实践指导。
本文提出了 Pailitao-VL,一种专为高精度实时工业搜索设计的统一多模态检索系统,通过引入基于绝对 ID 识别的嵌入范式及对比校准的列表式重排序策略,有效解决了现有方案在检索粒度、环境噪声鲁棒性及效率性能平衡方面的关键挑战,并在阿里巴巴电商平台上实现了业界领先的性能与显著的业务价值。
本文提出了模型无关的解耦可提示序列推荐框架(DPR),通过直接调制检索空间中的用户潜在表示,在保留传统协同过滤效率的同时,使推荐系统能够利用自然语言提示动态响应用户的即时意图。
本文介绍了 SearchGym,这是一个旨在弥合实验原型与生产系统差距的模块化基础设施,它通过解耦数据表示与检索逻辑实现跨平台基准测试与混合搜索编排,并在 LitSearch 基准测试中验证了其通过配置代数优化检索性能及揭示信息检索因果机制的有效性。
本文介绍了 FinRetrieval 基准,该基准通过 500 个金融检索问题评估了 AI 代理从结构化数据库中提取数值的能力,揭示了工具可用性对性能的决定性影响,并发现推理模式的效果取决于基础能力而非推理本身,同时指出了地理命名惯例带来的性能差异。
本研究利用大语言模型分析 1.6 万余条在线评论,揭示了传统指标未能捕捉的埃及航空服务痛点(如沟通不畅与员工态度),证明了该框架在将非结构化乘客反馈转化为可操作战略情报方面的有效性。