cs.IR 篇论文 | Gist.Science

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本文介绍了 OfficeQA Pro，这是一个基于近百年美国财政部公报（含 89,000 页文档和 2600 万个数值）构建的企业级基准，旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力，结果显示当前前沿大模型在此类任务上表现不佳，而采用结构化文档表示可显著提升性能，但距离企业级可靠应用仍有较大差距。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

本文综述了自然语言处理与信息检索领域中针对词嵌入、序列建模、注意力机制、Transformer、BERT 及文档排序等深度学习方法的可解释性与可理解性研究，并展望了未来的研究方向。

Sourav Saha, Debapriyo Majumdar, Mandar MitraThu, 12 Ma💬 cs.CL

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

本文提出了 ADC-SID 框架，通过自适应行为 - 内容对齐和动态行为加权机制，有效去除了协同信息中的噪声，从而解决了长尾物品在语义 ID 生成中因协同噪声导致的内容表征受损及关键行为 ID 难以区分的问题。

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing ZhangThu, 12 Ma💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

该研究通过实验与大数据分析发现，评价顺序（先评分后写评 vs. 先写评后评分）会通过情感启发式与认知努力的双重中介机制显著影响消费者评分，导致高服务质量情境下评分更高、低服务质量情境下评分更低，且该效应在享乐型产品中更为强烈，从而揭示了界面设计对在线评分真实性与分布形态的关键影响。

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers

该论文首次系统比较了推理与非推理重排序模型在公平性上的表现，发现推理能力本身并未改善或损害公平性，当前模型仅保留了输入排序的公平特征，而地理属性上的公平性差距普遍存在，表明未来需专门设计具备公平感知能力的推理模型。

Saron Samuel, Benjamin Van Durme, Eugene YangThu, 12 Ma🤖 cs.AI

Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems

该论文针对现有生成式推荐系统中交错建模导致的效率低下与注意力噪声问题，提出了 AttnLFA 和 AttnMVP 两种新架构，通过显式建模“物品 - 行为”的因果依赖关系替代交错机制，在显著降低序列复杂度与训练时间的同时提升了推荐性能。

Hailing ChengThu, 12 Ma🤖 cs.AI

Differentiable Geometric Indexing for End-to-End Generative Retrieval

该论文提出了一种名为可微分几何索引（DGI）的新方法，通过操作统一（利用 Gumbel-Softmax 和对称权重共享解决优化阻断）和等向几何优化（在单位超球面上使用缩放余弦相似度解决几何冲突），有效解决了生成式检索中索引构建与检索目标解耦及长尾项被热门项掩盖的问题，从而在大规模搜索和电商场景中实现了优于现有基线的性能。

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

Modeling Stage-wise Evolution of User Interests for News Recommendation

该论文提出了一种统一框架，通过结合全局长期偏好建模与基于阶段划分的时间子图（融合 LSTM 与自注意力机制）来捕捉短期动态兴趣，从而有效解决了现有方法难以同时建模用户长期稳定偏好与随时间快速演变的短期兴趣的问题，显著提升了新闻推荐的时效性与相关性。

Zhiyong Cheng, Yike Jin, Zhijie Zhang, Huilin Chen, Zhangling Duan, Meng WangThu, 12 Ma🤖 cs.AI

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

该论文提出了一种名为“轨迹感知记忆生成”的新框架，通过从智能体执行轨迹中提取策略、恢复和优化等结构化经验，并利用自适应检索将其注入提示，从而显著提升智能体在复杂任务中的自我改进能力与目标完成率。

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

本文提出了名为 ExBI 的新型系统，通过引入基于超图的数据模型、支持动态模式演化的算子以及具有理论保证的采样算法，有效解决了传统商业智能系统在探索性分析中面临的计算瓶颈与静态架构限制，在 LDBC 数据集上实现了远超 Neo4j 和 MySQL 的查询加速效果（平均 16.21 倍至 46.67 倍），同时保持了极高的分析精度（COUNT 平均误差仅 0.27%）。

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

该论文针对现有基于智能体的推荐系统过度以用户为中心而忽视物品与平台利益的局限，提出了首个协调用户效用、物品曝光与平台公平性的三方大模型推荐框架（TriRec），通过赋予物品个性化自我推广能力及平台多目标重排序机制，在提升推荐准确率的同时显著改善了公平性与长尾物品表现，打破了传统上准确性与公平性必然权衡的假设。

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan HeThu, 12 Ma💻 cs

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

该论文通过跨领域实验证明，将 Schema.org 结构化链接数据（特别是包含 LLM 指令和丰富导航功能的增强型实体页面）作为记忆层，能显著提升标准及代理式检索增强生成（RAG）系统的检索准确率与回答质量。

Andrea Volpini, Elie Raad, Beatrice Gamba, David RiccitelliThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

本文介绍了 RAGPerf，这是一个端到端的检索增强生成（RAG）系统基准测试框架，它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置，并自动化收集性能与准确性指标，从而实现对 RAG 系统行为的细粒度分析与评估。

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

该论文提出了一种利用大语言模型辅助生成可执行规则脚本的管道，将四种隐喻识别协议（MIP/MIPVU、CMDAG、情感检测及明喻识别）转化为透明且可审计的模块化流程，并在七个中文数据集上首次进行了跨协议比较，揭示了协议选择对识别结果的影响远超模型差异，同时证明了该方法在保持完全透明性的同时具备竞争力。

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

本文发布了一个包含英语和德语编目记录及机器可读 GND 本体的大型双语数据集，旨在通过支持本体感知的多标签分类和可复现的评估，推动权威锚定的人工智能在数字图书馆编目中的实际应用。

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

cs.IR