Meta-RL Induces Exploration in Language Agents
本文提出了名为 LaMer 的元强化学习框架,通过跨回合训练和基于反思的上下文策略适应机制,有效解决了语言智能体在长程任务中探索不足与试错适应低效的问题,显著提升了其在多样化环境中的性能与泛化能力。
2574 篇论文
本文提出了名为 LaMer 的元强化学习框架,通过跨回合训练和基于反思的上下文策略适应机制,有效解决了语言智能体在长程任务中探索不足与试错适应低效的问题,显著提升了其在多样化环境中的性能与泛化能力。
本文提出了 Re-Depth Anything 框架,通过利用大规模 2D 扩散模型先验进行自监督重光照与重合成,在测试阶段无需标签即可显著修正基础深度模型(如 Depth Anything V2/3)在真实场景中的预测误差,从而实现了当前最先进的单目深度估计精度与真实感。
该论文通过基于 Google BigQuery 的大规模实证研究,揭示了推理与非推理大语言模型在 Text-to-SQL 任务中的成本权衡,指出执行时间与云计费成本弱相关,且非推理模型因缺乏分区过滤等优化会导致高达 3.4 倍的成本波动,从而为企业部署提供了降低财务风险的关键指导。
本文介绍了 NeuroSPICE,一种利用物理信息神经网络(PINN)通过最小化微分代数方程残差来求解器件与电路波形的框架,其虽在训练速度和精度上未超越传统 SPICE,但在设计优化、逆问题求解及新型非线性器件(如铁电存储器)仿真方面展现出独特优势。
本文提出了“守恒一致编码”(CCE)框架,将智能视为受守恒律约束的物理过程,通过推广兰道尔原理和 metriplectic 流,建立了连接热力学耗散、量子测量与宏观时空几何的统一理论,从而为理解自然与人工智能提供了物理约束和量化指标。
本文针对安全关键的电网负荷预测,提出了一套超越传统精度指标(如 MAPE)的单向风险评估框架,通过对比多种神经网络架构在加州独立系统运营商数据上的表现,揭示了概率校准可能导致的“虚假安全”问题,并引入偏差约束目标以实现尾部风险最小化与避免过度预测之间的可审计权衡。
本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。
本文提出了一种无需训练的“思维批处理”(BoT)方法,通过联合处理相关查询并利用多智能体反思架构(BoT-R)进行跨实例学习与一致性校验,在提升大语言模型推理准确率与置信度校准的同时,显著降低了推理成本。
本文提出了基于 IBM 自然对话框架的 NC-Bench 基准,通过评估大语言模型在基础对话、检索增强生成及复杂请求等场景下的对话形式与结构管理能力,填补了现有评测在通用对话胜任力方面的空白。
本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。
该论文针对计算机使用代理(CUAs)面临的安全挑战,提出了一种名为“单次规划”的架构,通过在接触不可信环境前由可信规划器生成完整执行图,在有效防御提示注入和分支操控攻击的同时,显著提升了模型在安全与实用性之间的平衡。
本文提出了名为 BoxMind 的闭环 AI 专家系统,该系统通过解析拳击比赛视频构建层级化技战术指标并融合图预测模型生成战略建议,在 2024 年巴黎奥运会中成功验证了其卓越性能,直接助力中国国家队夺得三金两银的历史性成就。
本文针对现有方法忽视不同场景下用户移动模式差异的问题,提出了名为 MSAHG 的多面场景感知超图学习框架,通过构建场景特定的多视图解耦子超图及参数分裂机制,有效解决了跨场景特征捕捉与优化冲突问题,从而显著提升了下一兴趣点推荐的准确性。
DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试,旨在通过涵盖六种语言和六类任务的 1800 个评估实例,在避免训练数据污染的同时,从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。
该论文提出了名为 MAS-Orchestra 的训练框架,通过将多智能体编排建模为函数调用强化学习问题来实现全局系统推理,并引入 MASBENCH 基准从五个维度严格评估任务特性,从而揭示了多智能体系统的收益取决于任务结构而非普遍适用,最终在数学推理等任务中实现了显著的性能提升与效率优化。
该论文提出了确定性 - 忠实性保障框架(DFAH),通过包含 4700 多次运行的实证研究揭示了金融领域工具型 LLM 代理的决策确定性与任务准确性之间缺乏相关性,从而论证了必须独立测量这两个指标以满足监管审计回放要求,并发布了相应的开源基准测试与压力测试工具。
该论文提出了一种面向 FPGA 的连续流数据率感知 CNN 推理架构,通过交错低数据率信号、共享硬件单元及优化并行化策略,解决了卷积层和池化层导致的数据率下降问题,从而在实现接近 100% 硬件利用率的同时显著降低了逻辑资源消耗,使得在单块 FPGA 上部署 MobileNet 等复杂网络成为可能。
本文提出了名为 MeanCache 的训练无关缓存框架,通过利用缓存的 Jacobian-向量积构建平均速度以替代瞬时速度,并配合轨迹稳定性调度策略,在 FLUX.1、Qwen-Image 和 HunyuanVideo 等模型上实现了显著加速(最高达 4.56 倍)的同时保持了优于现有基线的生成质量。
本文介绍了 BioAgent Bench,这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件,通过涵盖端到端任务及压力测试,揭示了前沿模型虽能可靠构建复杂流程,但在面对输入扰动时仍缺乏稳健性,并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。
本文提出了开源本地部署的网络安全通用大模型 RedSage,通过构建大规模领域持续预训练数据与智能体增强微调流程,并引入 RedSage-Bench 基准测试,显著提升了模型在网络安全专业能力及通用推理任务上的表现。