cs.IR 篇论文 | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

本文介绍了 MITRA，一种专为大型物理实验（如 CMS）设计的本地化检索增强生成（RAG）原型系统，它通过自动化文档提取、两阶段向量数据库架构及完全本地部署的模型，有效解决了海量内部文档的检索难题并确保了数据隐私。

Abhishikth Mallampalli, Sridhara DasuWed, 11 Ma🤖 cs.AI

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

本文提出了 RecThinker 框架，通过引入“分析 - 规划 - 行动”范式及专用工具集，使推荐代理能够主动规划推理路径并自主获取关键信息，从而克服传统被动模式下的信息局限，显著提升推荐效果。

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng DouWed, 11 Ma💻 cs

Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG 赛道通过引入长叙事查询、基于 MS MARCO V2.1 语料库的多层评估框架以及强调归因验证，旨在推动构建透明、事实性强且具备推理能力的检索增强生成系统。

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy LinWed, 11 Ma💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

该论文提出了一种基于关节角运动图像与 Token-Patch 晚期交互的可解释细粒度文本 - 动作检索方法，通过将局部关节特征映射为伪图像并结合掩码语言模型正则化，克服了现有全局嵌入方法在细粒度对应和可解释性上的不足，在 HumanML3D 和 KIT-ML 数据集上实现了超越最先进水平的检索性能。

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu XiaoWed, 11 Ma💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

该论文提出了一种基于超空间几何和 Voronoi 单元估计的框架，通过量化令牌在嵌入空间中的影响区域，为晚期交互检索模型提供了一种兼具理论严谨性与高效性的令牌剪枝方法，在显著降低索引存储开销的同时保持了检索性能。

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le RouxWed, 11 Ma💻 cs

Survey of Computerized Adaptive Testing: A Machine Learning Perspective

本文从机器学习视角出发，对计算机化自适应测试（CAT）进行了全面综述，深入探讨了测量模型、选题算法、题库构建及测试控制等核心环节如何利用机器学习技术进行优化，旨在推动心理测量学与机器学习的跨学科融合，以构建更稳健、公平且高效的自适应测试系统。

Yan Zhuang, Qi Liu, Haoyang Bi, Zhenya Huang, Weizhe Huang, Jiatong Li, Junhao Yu, Zirui Liu, Zirui Hu, Yuting Hong, Zachary A. Pardos, Haiping Ma, Mengxiao Zhu, Shijin Wang, Enhong ChenTue, 10 Ma🤖 cs.LG

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

本文介绍了名为"KrishokBondhu"的语音驱动农业咨询系统，该系统利用检索增强生成（RAG）技术结合 Bengali 语音交互，为孟加拉国农民提供实时、专业的农业指导，并在试点评估中显著提升了回答质量与上下文丰富度。

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman RafatTue, 10 Ma💬 cs.CL

Continual Low-Rank Adapters for LLM-based Generative Recommender Systems

本文针对大语言模型推荐系统在持续学习中的挑战，提出了一种名为 PESO 的新方法，该方法通过引入将当前适配器锚定在最近冻结状态的近端正则化器，有效平衡了模型对新用户行为的适应与对旧知识的保留，从而在持续学习场景下显著优于现有基于 LoRA 的方法。

Hyunsik Yoo, Ting-Wei Li, SeongKu Kang, Zhining Liu, Charlie Xu, Qilin Qi, Hanghang TongTue, 10 Ma🤖 cs.LG

Semantic Search over 9 Million Mathematical Theorems

该论文介绍了针对从 arXiv 等来源提取的 920 万条数学定理构建的大规模语义检索系统，通过系统分析表示上下文、语言模型及提示策略等因素，在专业数学家构建的评估集上显著提升了定理级和论文级的检索效果，证明了在 Web 规模下实现有效语义定理搜索的可行性。

Luke Alexander, Eric Leonen, Sophie Szeto, Artemii Remizov, Ignacio Tejeda, Jarod Alper, Giovanni Inchiostro, Vasily IlinTue, 10 Ma🔢 math

Retrieval Pivot Attacks in Hybrid RAG: Measuring and Mitigating Amplified Leakage from Vector Seeds to Graph Expansion

该论文揭示了混合检索增强生成（RAG）系统中向量检索与知识图谱扩展结合所引发的“检索枢轴攻击”新风险，即通过自然共享实体导致跨租户数据泄露，并证明仅在图谱扩展边界实施授权检查即可有效消除泄露且开销极小。

Scott ThorntonTue, 10 Ma🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

该论文通过利用经过优化的微调大语言模型生成数百万条文本相关性标签，有效解决了专家标注稀缺的难题，并在 App Store 搜索排序中实现了行为相关性与文本相关性的同步提升，最终在全球 A/B 测试中显著提高了转化率，尤其在长尾查询场景下效果最为突出。

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat SundaranathaTue, 10 Ma🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

本文提出了一种名为“等渗层”（Isotonic Layer）的新型可微框架，通过将分段线性拟合与约束优化直接集成到神经网络中，实现了对推荐系统偏差的自适应校准与全局单调性约束，从而在提升预测精度和排序一致性的同时显著增强了模型的可靠性与公平性。

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu ZhangTue, 10 Ma🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

本文提出了探索空间理论（EST），通过将知识空间理论形式化地移植到基于位置的推荐系统中，利用格论和形式概念分析建立了兴趣点间先决依赖关系的数学基础，并据此构建了具备线性时间复杂度、推荐有效性保证及可解释性等结构优势的探索空间推荐系统（ESRS）。

Madjid SadallahTue, 10 Ma🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

本文针对在线杂货购物中重复购买模式与复杂商品关系的挑战，提出了一种名为 T-REX 的基于 Transformer 的架构，通过动态序列采样、自适应位置编码及类别级建模等创新，有效捕捉短期篮内依赖与长期用户偏好，从而在亚马逊在线杂货业务中显著提升了个性化品类推荐及下一篮预测的准确性。

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy ZubatiyTue, 10 Ma🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

本文提出了一种名为投影增强图（PAG）的新型近似最近邻搜索框架，通过结合投影技术与图索引，在满足现代 AI 应用六大关键需求的同时，实现了比 HNSW 快达 5 倍的查询性能、快速的索引构建速度以及良好的高维扩展性和在线插入支持。

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan XiaoTue, 10 Ma🤖 cs.LG

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

该论文提出利用预对齐的多模态编码器（如 OpenShape 与 Point-BERT）结合多模态硬对比学习（HCL），在无需视图合成或目标数据库重训练的情况下，实现了图像到 3D 形状的零样本及监督检索，并在多个数据集上取得了超越现有方法的性能。

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil SinhaTue, 10 Ma💻 cs

Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases

该论文提出了一种基于大语言模型的自动化统一框架，通过结合关键词查询、API 数据检索及 LLM 文本分类技术，高效构建可扩展的领域特定开放科学数据库，并在农业与作物产量等任务中验证了其能显著减少人工工作量且与专家 curated 数据库高度一致。

Nikita Gautam, Doina Caragea, Ignacio Ciampitti, Federico GomezTue, 10 Ma💻 cs

Multi-TAP: Multi-criteria Target Adaptive Persona Modeling for Cross-Domain Recommendation

本文提出了 Multi-TAP 框架，通过语义画像建模显式捕捉域内用户偏好的异质性，并实现基于目标域条件筛选的源域知识迁移，从而在跨域推荐任务中显著优于现有最先进方法。

Daehee Kang, Yeon-Chang LeeTue, 10 Ma💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

该论文提出了一种结合半自回归生成与在线知识蒸馏的个性化重排序框架（PSAD），通过引入用户画像网络增强用户 - 物品交互，有效解决了生成式重排序中生成质量与推理延迟的平衡难题，并在多个数据集上显著优于现有最先进方法。

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong ChenTue, 10 Ma💻 cs

Fine-Grained Table Retrieval Through the Lens of Complex Queries

本文提出了一种名为 DCTR 的细粒度表格检索机制，通过细粒度类型查询分解和全局连通性感知，有效解决了开放域复杂查询场景下关系数据库问答中的检索挑战，并在行业基准测试中展现了其针对高复合查询和密集连接数据库的鲁棒性。

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon HulsebosTue, 10 Ma💬 cs.CL