OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

该研究通过实验与大数据分析发现,评价顺序(先评分后写评 vs. 先写评后评分)会通过情感启发式与认知努力的双重中介机制显著影响消费者评分,导致高服务质量情境下评分更高、低服务质量情境下评分更低,且该效应在享乐型产品中更为强烈,从而揭示了界面设计对在线评分真实性与分布形态的关键影响。

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

该论文提出了一种名为可微分几何索引(DGI)的新方法,通过操作统一(利用 Gumbel-Softmax 和对称权重共享解决优化阻断)和等向几何优化(在单位超球面上使用缩放余弦相似度解决几何冲突),有效解决了生成式检索中索引构建与检索目标解耦及长尾项被热门项掩盖的问题,从而在大规模搜索和电商场景中实现了优于现有基线的性能。

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

Modeling Stage-wise Evolution of User Interests for News Recommendation

该论文提出了一种统一框架,通过结合全局长期偏好建模与基于阶段划分的时间子图(融合 LSTM 与自注意力机制)来捕捉短期动态兴趣,从而有效解决了现有方法难以同时建模用户长期稳定偏好与随时间快速演变的短期兴趣的问题,显著提升了新闻推荐的时效性与相关性。

Zhiyong Cheng, Yike Jin, Zhijie Zhang, Huilin Chen, Zhangling Duan, Meng WangThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

本文提出了名为 ExBI 的新型系统,通过引入基于超图的数据模型、支持动态模式演化的算子以及具有理论保证的采样算法,有效解决了传统商业智能系统在探索性分析中面临的计算瓶颈与静态架构限制,在 LDBC 数据集上实现了远超 Neo4j 和 MySQL 的查询加速效果(平均 16.21 倍至 46.67 倍),同时保持了极高的分析精度(COUNT 平均误差仅 0.27%)。

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

该论文针对现有基于智能体的推荐系统过度以用户为中心而忽视物品与平台利益的局限,提出了首个协调用户效用、物品曝光与平台公平性的三方大模型推荐框架(TriRec),通过赋予物品个性化自我推广能力及平台多目标重排序机制,在提升推荐准确率的同时显著改善了公平性与长尾物品表现,打破了传统上准确性与公平性必然权衡的假设。

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan HeThu, 12 Ma💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

该论文提出了一种利用大语言模型辅助生成可执行规则脚本的管道,将四种隐喻识别协议(MIP/MIPVU、CMDAG、情感检测及明喻识别)转化为透明且可审计的模块化流程,并在七个中文数据集上首次进行了跨协议比较,揭示了协议选择对识别结果的影响远超模型差异,同时证明了该方法在保持完全透明性的同时具备竞争力。

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

本文发布了一个包含英语和德语编目记录及机器可读 GND 本体的大型双语数据集,旨在通过支持本体感知的多标签分类和可复现的评估,推动权威锚定的人工智能在数字图书馆编目中的实际应用。

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

本文提出了名为 PharmGraph-Auditor 的新型系统,通过构建基于虚拟知识图谱的混合医药知识库(HPKB)并采用迭代模式优化与基于知识库的验证链(CoV)推理范式,有效解决了大语言模型在处方审核中缺乏事实可靠性与可追溯性的问题,从而为药师提供了更安全、高效的验证辅助。

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

本文提出了 HCT-QA 基准,这是一个包含真实与合成人类中心表格及海量问答对的大规模数据集,旨在解决现有方法难以处理复杂表格布局及缺乏自然语言查询评估标准的问题,并验证了微调模型在该任务上的显著性能提升。

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI