SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
本文提出了 SkillsBench 基准,通过 86 个跨领域任务评估发现,精心策划的 Agent 技能能显著提升大语言模型的平均通过率(+16.2%),且小模型借助技能可媲美无技能的大模型,但模型自主生成的技能往往无效,且技能效果在不同领域间存在显著差异。
3301 篇论文
本文提出了 SkillsBench 基准,通过 86 个跨领域任务评估发现,精心策划的 Agent 技能能显著提升大语言模型的平均通过率(+16.2%),且小模型借助技能可媲美无技能的大模型,但模型自主生成的技能往往无效,且技能效果在不同领域间存在显著差异。
该论文提出了一种基于嵌入空间几何特征的大语言模型幻觉分类法,将幻觉划分为不忠实、虚构和事实错误三类,并据此开发了相应的检测指标,同时揭示了现有基准测试中因标注风格混淆而导致的事实错误检测理论局限。
TrasMuon 通过结合全局均方根校准与基于能量的信任区域截断,在保留 Muon 优化器近等距几何特性的同时有效稳定了更新幅度,从而在无需预热阶段的情况下实现了比基线更快的收敛速度和更强的鲁棒性。
该论文提出并验证了一个针对最新大语言模型优化的轻量级自动化 AI 流水线,证明其能够生成并解决包括国际数学竞赛级及未发表研究级在内的复杂数学问题,且部分成果已通过团队验证并开源。
本文提出了一种名为均值流策略(MVP)的新型生成策略,通过引入瞬时速度约束(IVC)作为关键边界条件,在确保高表达性的同时实现了单步动作生成,并在多个机器人操作任务中取得了优于现有流基策略的采样速度与成功率。
本文提出了 Pawsterior,一种基于变分流匹配的模拟推理框架,通过引入端点诱导的仿射几何约束和变分参数化,有效解决了传统方法在处理有界物理参数及离散 - 连续混合变量等结构化后验分布时的效率与兼容性问题。
该论文提出了可解释的 Token 级噪声过滤框架 XTF,通过将数据贡献分解为推理重要性、知识新颖性和任务相关性三个属性来识别并掩蔽噪声 Token 的梯度,从而在多个下游任务中显著提升了大语言模型微调后的性能。
本文提出了 LongAudio-RAG 框架,通过将多小时长音频转换为结构化事件记录并利用 SQL 数据库进行检索,使大语言模型能够基于精确的时间定位证据回答自然语言问题,从而在混合边缘 - 云架构下有效解决了长音频问答中的上下文限制与幻觉问题。
CogitoRAG 是一种受人类情景记忆启发的检索增强生成框架,通过构建多维知识图谱、提取语义主旨、执行实体扩散检索及引入 CogniRank 重排序算法,有效解决了传统方法中的语义完整性丢失问题,在复杂知识整合与推理任务中显著优于现有方法。
该论文提出了首个针对条件性生物医学问答的基准 CondMedQA 以及一种名为条件门控推理(CGR)的新框架,通过构建条件感知知识图谱并基于查询条件动态激活或剪枝推理路径,有效解决了现有系统忽视患者特异性因素(如并发症和禁忌症)导致推理不准确的问题。
该论文针对部署中的共形预测器,提出了超越边际覆盖率保障的运营认证与规划框架,通过小样本 Beta 修正、独立审计集校准及几何特征分析,在有限时间窗口内为系统的承诺频率、推迟决策及错误暴露等关键运营指标提供明确的有限样本保证与帕累托权衡分析。
本文介绍了 ABD 基准,旨在评估前沿大语言模型在有限一阶世界中通过稀疏异常假设恢复可满足性的默认 - 异常归因能力,揭示了模型在有效性上的高表现与稀疏性差距及跨场景泛化失败模式。
本文介绍了名为 INDUCTION 的基准测试,旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力,通过精确模型检查验证公式正确性,并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。
该论文利用 CityLearn 环境构建了一个涵盖多关键性能指标(KPI)的基准测试,通过对比不同训练架构和神经网络的 MARL 算法,发现去中心化训练在平均表现、最坏情况性能及电池寿命等实际挑战上优于集中式训练,并揭示了策略在应对资源移除时的鲁棒性。
本文介绍了基于 ModernBERT 架构、支持 35 种语言及代码的 MrBERT 模型系列,该系列通过词汇、领域和维度适配(含 Matryoshka 表示学习)在加泰罗尼亚语、西班牙语及生物医学、法律等专业领域实现了最先进的性能,同时显著降低了推理与存储成本。
本文提出了 ARLArena 框架以系统分析智能体强化学习(ARL)的稳定性问题,并基于此设计了能显著缓解训练不稳定的 SAMPO 方法,为构建稳定且可复现的 LLM 智能体训练流程提供了统一视角与实践指导。
CryoNet.Refine 是一种基于单步扩散模型的深度学习框架,它通过整合密度感知损失函数与立体化学约束,实现了比传统方法更快速、自动化且高质量的冷冻电镜结构模型优化。
本文提出“氛围研究”(vibe researching)概念,通过构建认知任务框架界定 AI 智能体在社会科学研究中的能力边界,论证其虽能大幅加速研究流程并辅助方法实施,但在理论原创性与隐性知识方面仍无法替代人类学者,进而警示了该变革带来的职业分层风险与教学危机。
该论文提出了衡量系统交互有效性的“双预测性”(bipredictability)这一核心指标,证明了其在经典与量子系统中的理论界限,指出当前 AI 仅具备行动能力而缺乏自我监控与适应的“智能”,并据此提出了一种受生物机制启发的实时反馈架构以构建具备真正智能的自适应系统。
本文提出了名为 AVDE 的轻量级框架,通过结合对比学习对齐 EEG 与图像表征,并利用基于“多尺度预测”策略的自回归生成模型,实现了高效、低参数量且符合人类视觉感知层级特性的脑电视觉解码。