From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review
该论文系统整合了2019至2025年间评估大语言模型与自主智能体的碎片化工作,提出了涵盖约60个基准的统一分类法,综述了智能体框架、跨领域应用及关键协作协议,并针对未来研究方向提出了具体建议。
3754 篇论文
该论文系统整合了2019至2025年间评估大语言模型与自主智能体的碎片化工作,提出了涵盖约60个基准的统一分类法,综述了智能体框架、跨领域应用及关键协作协议,并针对未来研究方向提出了具体建议。
本文提出了一种名为 SFIBA 的空间全目标不可见后门攻击方法,通过结合频域注入、形态约束及局部空间区域限制,在确保触发器视觉不可见性和针对所有类别的特定性的同时,实现了高效的黑盒多目标攻击并有效规避现有防御。
本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。
该研究通过引入认知负荷理论,分析了 34 位金融专业人士在利用 GPT-4o 完成复杂估值任务时的表现,发现 AI 生成内容能提升工作质量,但由模型发起的任务切换等引发的外在认知负荷对绩效的负面影响最大,且这种负面影响会随经验不足而加剧。
该论文提出了名为 Ready2Unlearn 的元学习优化方法,通过在训练阶段前瞻性地赋予模型“可遗忘就绪”状态,使其在面对未来的数据删除请求时,能够比传统反应式方法更高效、更规范地执行机器遗忘。
FreeKV 提出了一种无需训练的算法与系统协同优化框架,通过推测检索、细粒度校正及混合内存布局等创新技术,在保持大语言模型推理精度近乎无损的同时,将 KV 缓存检索效率提升了最高 13 倍。
该论文提出了一种结合类比检索与形式化验证反馈的神经符号方法,显著提升了大语言模型在欧几里得几何证明任务中的准确性与可靠性。
本文提出了 MAS-ZERO,这是首个无需验证集即可在推理阶段通过元级设计自我演化、动态分解问题并自适应调整代理配置的自动多智能体系统框架,在多种任务中显著超越了现有手动及自动基线方法。
本文提出了基于非回合制游戏 Agar.io 的持续强化学习研究平台 AgarCL,该平台通过高维、随机且动态演化的环境为智能体提供了渐进式行为发展的测试场,并通过对多种算法的评估揭示了 AgarCL 所面临的挑战超越了传统的稳定性 - 可塑性困境。
该论文建立了一个针对无限维概率分布空间的最优控制最大原理与哈密顿 - 雅可比 - 贝尔曼方程的通用理论框架,并提出了结合深度神经网络的扩展数值算法,以有效解决包含障碍物和智能体交互的大规模多智能体控制问题。
该论文提出了一种通过向大语言模型的中间层表示注入可训练嵌入来增强指令层级信号的新方法,从而显著降低了提示注入攻击的成功率,同时保持了模型的实用性。
该论文针对高阶共同邻居中存在的冗余和过平滑问题,提出了通过正交化和归一化技术消除重复并缓解过平滑的“正交共同邻居(OCN)”方法,在多个链接预测基准测试中显著优于现有最先进模型。
该研究提出了一种源自原子基础模型中间特征的新型局部蛋白质环境表示方法,该方法不仅能有效捕捉结构与化学特征,还能构建数据驱动的先验分布,并成功实现了具有物理学信息且达到最先进精度的核磁共振化学位移预测。
本文提出了 MMTU,一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试,旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力,并揭示了当前顶尖模型在此领域仍存在显著不足。
本文提出了 BemaGANv2,一种通过引入 AMP 生成模块和 MED 判别器,并系统评估多种判别器组合策略,以实现高保真、长时程音频生成(如文本转音乐/音频)的先进 GAN 语音合成器。
本文针对现实场景中数据与模型异构的挑战,提出了任务相关性感知的聚合策略及维度不变模块 Co-LoRA,并构建了涵盖 40 个任务的多模态基准,显著提升了个性化联邦学习在异构环境下的性能。
本文提出了名为 ContextMatters 的框架,通过结合大语言模型与经典规划器,利用场景上下文对不可达目标进行分层松弛以生成可行计划,从而在真实 3D 环境中显著提升了具身智能体的任务成功率。
该论文提出了一种名为 GLMask 的半自监督学习方法,通过最小化人工标注并专注于形状与纹理特征,成功将语义分割转化为实例分割,在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能,并在 COCO 数据集上实现了超过 12.6% 的显著提升。
本文针对直接偏好优化(DPO)中数据选择忽视模型演化状态的问题,提出了名为 SamS 的自适应批处理样本调度算法,该算法能根据模型学习反馈动态调整训练样本,从而在不修改核心算法且计算开销极小的情况下显著提升大语言模型的泛化性能。
该论文提出了“动机增强强化微调”(MeRF)方法,通过将奖励函数规范作为上下文提示直接注入大语言模型,使其在强化学习过程中明确优化目标,从而显著提升模型在复杂推理任务上的性能。