cs.IR 篇论文 | Gist.Science

ThinkQE: Query Expansion via an Evolving Thinking Process

本文提出了名为 ThinkQE 的测试时查询扩展框架，通过基于思维的深度语义探索与结合检索反馈的迭代优化策略，有效解决了现有大模型方法在查询扩展中缺乏多样性和全面性的问题，并在多个基准测试中超越了传统训练密集型方法。

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

TaoSR1: The Thinking Model for E-commerce Relevance Search

本文提出了 TaoSR1 框架，通过结合思维链监督微调、偏好优化及基于难度的动态采样策略，成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战，显著提升了离线与在线评估表现。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

该论文提出了一种名为 ELERAG 的检索增强生成架构，通过整合基于 Wikidata 的实体链接和混合重排序策略，显著提升了意大利语教育领域问答系统的事实准确性，并验证了领域自适应策略在解决通用模型与专业领域数据分布不匹配问题上的有效性。

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

本文提出了 MCGI（流形一致性图索引）方法，通过利用局部内在维度（LID）动态调整搜索策略以解决高维空间中欧氏距离与测地线不匹配的问题，在十亿级磁盘驻留向量搜索中显著提升了吞吐量并降低了查询延迟。

Dongfang ZhaoWed, 11 Ma🤖 cs.AI

Scaling Multilingual Semantic Search in Uber Eats Delivery

本文介绍了 Uber Eats 构建的统一多语言、多垂直领域语义检索系统，该系统通过基于海量交互数据微调 Qwen2 双塔模型，结合 InfoNCE 与三元组损失训练及 Matryoshka 表示学习技术，在六个市场和三个业务垂直领域显著提升了召回率。

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs

Time warping with Hellinger elasticity

本文针对取值于任意度量空间的时间序列匹配问题，提出了一种基于 Hellinger 核作为拉伸惩罚项的弹性时间规整算法，该算法具有立方级计算复杂度。

Yuly BilligWed, 11 Ma💻 cs

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

该论文通过跨文本与多模态基准的实验，证实了检索质量（特别是基于覆盖率的指标）与 RAG 生成响应的信息覆盖率之间存在强相关性，表明检索指标可作为评估 RAG 系统性能的有效代理。

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

该论文通过实证研究揭示，生成式搜索中的引用可见性具有显著的非确定性波动，因此主张摒弃单一测量点估计，转而采用统计框架将引用指标视为分布估计量并报告不确定性区间，以避免对域名表现产生误导性解读。

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

本文介绍了名为"Guardian"的端到端决策支持系统，该系统通过结合可解释的马尔可夫链、强化学习及大语言模型质量验证的三层架构，将非结构化案件数据转化为缺失儿童搜索的时空风险预测与优化方案。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本文提出了 PathoScribe 框架，通过统一的检索增强大语言模型技术，将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”，显著提升了病理数据的检索效率与临床决策价值。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

本文介绍了名为"Guardian"的端到端系统及其多模型流水线，该系统通过结合基于 QLoRA 的微调、任务专用大语言模型以及共识引擎，旨在以可审计的保守方式辅助失踪人员（特别是儿童）调查中的关键信息提取与搜索规划。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

该论文提出了 D2AJSCC 框架，通过利用正交频分复用（OFDM）的子载波合成能力并结合可微分的代理网络（ProxyNet），成功在无需硬件修改的标准数字物理层上实现了具有优雅退化特性的高保真模拟联合信源信道编码。

Shumin Yao, Hao Chen, Yaping Sun, Nan Ma, Xiaodong Xu, Qinglin Zhao, Shuguang CuiWed, 11 Ma🔢 math

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

该研究通过对谷歌反向图片搜索的系统审计发现，在视觉虚假信息核查中，辟谣内容在搜索结果中的占比不足 30%，且常因无关信息和重复谣言的干扰而面临可见性挑战，揭示了算法作为信息守门人在视觉领域可能加剧而非缓解虚假信息传播的机制。

Cong Lin, Yifei Chen, Jiangyue Chen, Yingdan Lu, Yilang Peng, Cuihua ShenWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

本文提出了 DataFactory 框架，通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构，结合自动化数据转知识图谱映射与自然语言协商机制，有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题，并在多个基准测试中显著提升了准确率。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

本文提出了 RF-Mem，一种受人类记忆双过程（熟悉感与回忆）启发的自适应检索框架，通过根据熟悉度不确定性动态切换直接匹配与迭代重构路径，在有限预算下实现了比现有方法更精准、可扩展的个性化大语言模型记忆检索。

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

该论文提出了一种名为 AgentGEO 的代理系统，通过构建引用失败分类法来诊断生成式引擎优化（GEO）中的具体失效原因并实施针对性修复，从而在仅修改少量内容的情况下显著提升了引用率，同时揭示了通用优化策略可能损害长尾内容可见性的问题。

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

本文提出了 TA-Mem 框架，通过引入自适应记忆提取代理、多索引记忆数据库及工具增强的自主检索代理，利用动态工具选择机制替代传统静态检索方法，显著提升了大语言模型在长程对话问答任务中的表现。

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

PRECEPT 是一个统一的测试时适应框架，通过结合确定性精确规则检索、冲突感知记忆机制以及由 COMPASS 驱动的帕累托引导提示演化，有效解决了大语言模型在条件增多时的检索退化、规则组合困难及知识陈旧问题，并在多项基准测试中展现出显著的鲁棒性与性能提升。

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

这篇 ECIR 2025 主题演讲摘要探讨了大型语言模型在知识密集型任务中如何协调参数化知识与上下文检索知识之间的复杂互动，重点分析了知识冲突（包括参数内冲突及与上下文的冲突）的成因，并介绍了评估模型知识状态、诊断冲突及理解上下文知识有效利用特征的研究成果。

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

该研究提出了一种基于大型上下文电子健康记录的自动心血管风险管理分类框架，通过对比传统机器学习、专用深度学习架构及生成式大语言模型，证实了定制 Transformer 模型在捕捉医疗文本长程依赖方面表现最优，为老年心血管风险分层提供了高效的自动化替代方案。

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI