OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。
147 篇论文
本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。
本文综述了自然语言处理与信息检索领域中针对词嵌入、序列建模、注意力机制、Transformer、BERT 及文档排序等深度学习方法的可解释性与可理解性研究,并展望了未来的研究方向。
本文提出了 ADC-SID 框架,通过自适应行为 - 内容对齐和动态行为加权机制,有效去除了协同信息中的噪声,从而解决了长尾物品在语义 ID 生成中因协同噪声导致的内容表征受损及关键行为 ID 难以区分的问题。
该研究通过实验与大数据分析发现,评价顺序(先评分后写评 vs. 先写评后评分)会通过情感启发式与认知努力的双重中介机制显著影响消费者评分,导致高服务质量情境下评分更高、低服务质量情境下评分更低,且该效应在享乐型产品中更为强烈,从而揭示了界面设计对在线评分真实性与分布形态的关键影响。
该论文首次系统比较了推理与非推理重排序模型在公平性上的表现,发现推理能力本身并未改善或损害公平性,当前模型仅保留了输入排序的公平特征,而地理属性上的公平性差距普遍存在,表明未来需专门设计具备公平感知能力的推理模型。
该论文针对现有生成式推荐系统中交错建模导致的效率低下与注意力噪声问题,提出了 AttnLFA 和 AttnMVP 两种新架构,通过显式建模“物品 - 行为”的因果依赖关系替代交错机制,在显著降低序列复杂度与训练时间的同时提升了推荐性能。
该论文提出了一种名为可微分几何索引(DGI)的新方法,通过操作统一(利用 Gumbel-Softmax 和对称权重共享解决优化阻断)和等向几何优化(在单位超球面上使用缩放余弦相似度解决几何冲突),有效解决了生成式检索中索引构建与检索目标解耦及长尾项被热门项掩盖的问题,从而在大规模搜索和电商场景中实现了优于现有基线的性能。
该论文提出了一种统一框架,通过结合全局长期偏好建模与基于阶段划分的时间子图(融合 LSTM 与自注意力机制)来捕捉短期动态兴趣,从而有效解决了现有方法难以同时建模用户长期稳定偏好与随时间快速演变的短期兴趣的问题,显著提升了新闻推荐的时效性与相关性。
该论文提出了一种名为“轨迹感知记忆生成”的新框架,通过从智能体执行轨迹中提取策略、恢复和优化等结构化经验,并利用自适应检索将其注入提示,从而显著提升智能体在复杂任务中的自我改进能力与目标完成率。
本文提出了名为 ExBI 的新型系统,通过引入基于超图的数据模型、支持动态模式演化的算子以及具有理论保证的采样算法,有效解决了传统商业智能系统在探索性分析中面临的计算瓶颈与静态架构限制,在 LDBC 数据集上实现了远超 Neo4j 和 MySQL 的查询加速效果(平均 16.21 倍至 46.67 倍),同时保持了极高的分析精度(COUNT 平均误差仅 0.27%)。
该论文针对现有基于智能体的推荐系统过度以用户为中心而忽视物品与平台利益的局限,提出了首个协调用户效用、物品曝光与平台公平性的三方大模型推荐框架(TriRec),通过赋予物品个性化自我推广能力及平台多目标重排序机制,在提升推荐准确率的同时显著改善了公平性与长尾物品表现,打破了传统上准确性与公平性必然权衡的假设。
该论文通过跨领域实验证明,将 Schema.org 结构化链接数据(特别是包含 LLM 指令和丰富导航功能的增强型实体页面)作为记忆层,能显著提升标准及代理式检索增强生成(RAG)系统的检索准确率与回答质量。
本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。
该论文提出了一种利用大语言模型辅助生成可执行规则脚本的管道,将四种隐喻识别协议(MIP/MIPVU、CMDAG、情感检测及明喻识别)转化为透明且可审计的模块化流程,并在七个中文数据集上首次进行了跨协议比较,揭示了协议选择对识别结果的影响远超模型差异,同时证明了该方法在保持完全透明性的同时具备竞争力。
本文发布了一个包含英语和德语编目记录及机器可读 GND 本体的大型双语数据集,旨在通过支持本体感知的多标签分类和可复现的评估,推动权威锚定的人工智能在数字图书馆编目中的实际应用。
本文提出了名为 PharmGraph-Auditor 的新型系统,通过构建基于虚拟知识图谱的混合医药知识库(HPKB)并采用迭代模式优化与基于知识库的验证链(CoV)推理范式,有效解决了大语言模型在处方审核中缺乏事实可靠性与可追溯性的问题,从而为药师提供了更安全、高效的验证辅助。
该论文通过在 13 个低资源 BEIR 任务上对五种基于大语言模型的伪相关性反馈方法进行受控实验,系统揭示了反馈源与反馈模型各自对检索效果的影响,并指出纯 LLM 生成文本是性价比最高的反馈来源,而基于语料库的反馈在结合强初筛检索器时最为有效。
本文提出了 LLMGreenRec,这是一种基于大语言模型的多智能体推荐系统框架,旨在通过精准推断用户绿色意图来推荐可持续商品,同时减少数字碳足迹,从而弥合绿色意愿与行动之间的差距并推动负责任的数字经济发展。
该论文提出了“阅读活动痕迹”(RATs)概念,将阅读重新定义为一种创造性活动,并通过 WikiRAT 等实例展示了如何通过追踪阅读轨迹来使被算法压缩的人类解释性工作可视化,从而为反思性实践和智能工具设计开辟新路径。
本文提出了 HCT-QA 基准,这是一个包含真实与合成人类中心表格及海量问答对的大规模数据集,旨在解决现有方法难以处理复杂表格布局及缺乏自然语言查询评估标准的问题,并验证了微调模型在该任务上的显著性能提升。