DRBench: A Realistic Benchmark for Enterprise Deep Research
本文介绍了 DRBench,这是一个面向企业场景的基准测试,旨在通过结合公开网络与私有知识库的多步骤复杂任务,评估 AI 智能体在深度研究中的事实准确性、信息召回及报告生成能力。
1015 篇论文
本文介绍了 DRBench,这是一个面向企业场景的基准测试,旨在通过结合公开网络与私有知识库的多步骤复杂任务,评估 AI 智能体在深度研究中的事实准确性、信息召回及报告生成能力。
该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。
本文介绍了 AlphaApollo 系统,该系统通过多轮智能体推理、多轮智能体学习(结合工具使用强化学习)以及多轮智能体进化(提出 - 判断 - 更新循环)三大核心组件,有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题,并在多个数学基准测试中显著提升了不同规模模型的性能。
本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。
本文提出了名为 SynthWorlds 的框架,通过构建具有相同逻辑结构但知识映射不同的“真实世界”与“合成世界”平行语料库,成功将语言模型的推理能力与参数化事实知识解耦,从而在受控环境中精确评估并量化了模型对记忆知识的依赖程度。
该论文提出了 ReViewGraph 框架,通过大语言模型模拟多轮审稿人与作者辩论,利用异构图推理技术显式建模多样化的观点交互关系,从而显著提升了自动论文评审的准确性与推理深度。
该研究基于 565 万篇科学论文的大数据分析发现,生成式人工智能(GenAI)显著推动了非英语国家学者的学术写作向美式英语风格收敛,尤其在语言距离较远和期刊影响力较低的情境中,这一趋势表明 GenAI 正在降低科学出版中的语言壁垒,但也引发了关于这是促进包容还是加深对单一语言标准依赖的讨论。
该论文针对现有研究在伪多模态和用户同质化方面的局限,提出了首个用户中心的多模态立场检测数据集 U-MStance 及 PRISM 框架,通过构建纵向用户画像、利用思维链对齐多模态语境以及任务互增强机制,显著提升了复杂对话场景下的立场检测性能。
本文通过对比 EVONS 和 FakeNewsNet 数据集上的虚假新闻检测与病毒式传播预测,揭示了从真实性判断转向扩散动态预测时基准表现的关键差异,并提出了在有限资源下实现高效、透明且媲美前沿水平的虚假信息预测操作化方案。
该论文提出了一种名为 ELERAG 的检索增强生成架构,通过整合基于 Wikidata 的实体链接和混合重排序策略,显著提升了意大利语教育领域问答系统的事实准确性,并验证了领域自适应策略在解决通用模型与专业领域数据分布不匹配问题上的有效性。
本文提出了 DEER 基准,通过构建包含 101 项细粒度标准的专家级评估体系及主张验证架构,系统性地解决了深度研究代理在生成专家报告时面临的评估维度复杂、领域错误识别难及证据验证缺失等挑战,并揭示了现有系统在满足专家需求与逻辑完整性方面的改进空间。
该论文提出了 CRANE 框架,通过基于功能必要性的神经元级干预而非激活幅度启发式方法,更精准地识别出多语言大模型中语言特异但非排他的神经元组件。
本文提出了 EVM-QuestBench,这是一个面向 EVM 兼容链的自然语言交易脚本生成执行落地基准,通过动态验证机制评估大语言模型在确保交易安全与执行准确性方面的表现,并揭示了模型在单步操作与多步工作流完成度之间的显著性能差异。
本文首次系统研究了离散语音表示(DSRTs)中的口音信息编码,提出了一套包含口音 ABX 测试和跨口音语音转换的评估框架,并发现层的选择对保留口音信息影响最大,而 ASR 监督会显著削弱口音信息,且简单的码本缩减无法有效解耦口音与音素及说话人信息。
该论文提出了一种名为 EigenData 的统一框架,通过结合自进化合成数据引擎与基于验证器的强化学习(RL),有效解决了多轮交互式工具使用智能体在数据合成扩展性及训练信号噪声方面的挑战,并在 tau^2-bench 基准测试中取得了媲美或超越前沿模型的性能。
该论文提出了一种在预训练阶段通过自适应生成可变长度的潜在思维链来增加每 token 计算量的方法,该方法无需扩展参数量即可在降低训练和推理计算成本的同时,显著提升语言模型的困惑度及下游任务表现。
该论文提出了一种基于大语言模型注意力分数的轻量级查询感知与记忆感知重排序框架,无需标度监督即可利用列表式信息实现高效且强大的长上下文检索性能,并在 LoCoMo 等多个基准测试中取得了新的最先进成果。
本文提出了“缺失即设计”(MBD)框架,通过结合结构化表征学习与可验证的参数修改流程,实现了多模态情感分析中特定模态信息的可撤销删除,在保障用户隐私自主权的同时维持了模型的高效预测性能。
本文介绍了包含 56 个植入隐藏行为模型的基准测试 AuditBench,通过自主调查代理评估了多种对齐审计技术的有效性,揭示了工具在代理环境中的性能差距、黑盒工具的优势以及不同训练方法对审计难度的影响。
该论文提出了名为 SkillCraft 的基准测试,旨在评估大语言模型智能体在长程工作流中抽象和复用高阶工具组合(即“技能”)的能力,并通过引入轻量级评估协议验证了技能积累与复用能显著提升执行效率(最高减少 80% 的 Token 消耗)并增强任务成功率。