Hindsight Credit Assignment for Long-Horizon LLM Agents
本文提出了 HCAPO 框架,通过利用大语言模型进行事后推理以优化步级 Q 值估计并引入多尺度优势机制修正价值基线,有效解决了长程任务中的稀疏奖励与信用分配难题,在 WebShop 和 ALFWorld 等基准测试中显著超越了现有强化学习方法。
4883 篇论文
本文提出了 HCAPO 框架,通过利用大语言模型进行事后推理以优化步级 Q 值估计并引入多尺度优势机制修正价值基线,有效解决了长程任务中的稀疏奖励与信用分配难题,在 WebShop 和 ALFWorld 等基准测试中显著超越了现有强化学习方法。
该论文提出了一种将群 在乘积空间 上的不变函数简化为 的迷向子群 在 上不变量的通用方法,通过建立轨道等价关系消除了现有等变神经场方法的结构限制,使其能够适用于任意群作用和同质条件空间。
该论文证明了在 AI 对齐验证中,无法同时满足完备性、通用性和可计算性这三个属性,从而确立了形式化对齐认证的固有局限,并指出通过放宽任一条件仍可实现有意义的保障。
本文提出了 SPREAD 框架,通过利用奇异值分解在低秩子空间中对齐策略表示以保留任务几何结构,并结合基于置信度的蒸馏策略,有效解决了终身模仿学习中的灾难性遗忘问题,在 LIBERO 基准测试中实现了最先进的性能。
本文介绍了 Midicoth,一种通过引入基于二叉树分解的微观扩散去噪层,将概率校准转化为一系列高效二分类任务,从而在稀疏数据下修正自适应统计模型偏差并实现无损压缩的在线系统。
本文提出了一种结合技能基课程学习的多层级元强化学习框架,通过递归压缩马尔可夫决策过程(MDP)来构建层级结构,从而有效降低随机性、解耦子任务并促进技能在不同问题与层级间的迁移,最终实现更高效且可解释的复杂序列决策。
本文提出了“时间马尔可夫转移场”(TMTF),通过划分时间序列为多个连续片段并分别估计局部转移矩阵,解决了传统马尔可夫转移场(MTF)在刻画非平稳过程时因全局平均而丢失时序动态信息的缺陷,从而生成能清晰反映不同时间段演化特征的二维图像表示。
该论文提出了 SoftJAX 和 SoftTorch 两个开源库,旨在通过将阈值、布尔逻辑、离散索引和排序等“硬”原语替换为具有信息梯度的“软”松弛版本,解决现有自动微分框架中不可导操作的问题,从而赋能更广泛的科学领域优化。
该论文提出了名为 GenGNN 的模块化消息传递框架,证明了在离散图生成任务中,无需依赖高表达力的 Transformer 等复杂架构,仅使用 GenGNN 作为扩散模型骨干即可在保持与图 Transformer 相当的有效性(如树和平面图数据集超过 90%、分子生成达 99.49%)的同时,实现 2 至 5 倍的推理速度提升。
该论文提出了 MASEval 框架,旨在填补现有基准测试仅关注模型而忽视系统实现(如拓扑结构和编排逻辑)的空白,通过系统级评估证明框架选择对多智能体系统性能的影响与模型选择同等重要。
该论文通过理论证明与实验验证,揭示了混合序列模型(结合 Transformer 与状态空间模型)在解决特定合成任务时,能够以远少于纯 Transformer 或纯状态空间模型的参数量和内存开销实现同等性能,并展现出更优的长度泛化能力与分布外鲁棒性。
本文提出了 APPLV 方法,通过利用预训练视觉 - 语言模型预测经典规划器的参数,结合监督与强化学习策略,有效解决了移动机器人在高约束环境下的导航安全性、精确控制及泛化难题。
该研究通过在私有 5G 环境中的实测表明,仅依赖信道级指标(如信号强度)的模型会因高估 MIMO 空间层数而系统性地高估端到端吞吐量,而直接基于实测数据学习的高斯过程模型能显著降低预测误差,证明通信感知规划需采用数据驱动方法或精细校准的链路层模型以准确预测系统性能。
本文针对混合信息系统中模糊粗糙集理论在高维空间下计算效率低及易产生噪声的问题,提出了一种名为 FSbuHD 的新特征选择模型,该模型通过计算对象间综合距离构建模糊等价关系,将特征选择转化为优化问题,并在正常和乐观两种模式下经实验验证了其高效性与优越性。
本文提出了一种名为“转移信息博彩(TIB)”的新方法,通过结合跨域风险分布预热与博彩置信序列,在数据稀缺场景下显著提升了选择性预测的覆盖率,并系统评估了九类有限样本界在多个基准测试中的表现。
本文提出了 FedLECC,一种针对非独立同分布数据的联邦学习客户端选择策略,通过结合标签分布聚类与局部损失引导,在显著降低通信开销的同时提升了模型收敛速度与测试精度。
该论文提出了一种整合困惑度检测、金丝雀序列提取和成员推断的多向量隐私评估框架,系统量化了基因组语言模型在不同架构和训练条件下的记忆化风险,揭示了单一攻击手段的局限性并强调了多向量审计的必要性。
该论文提出了一种基于连续松弛伯努利门的全微分优化方法,用于在保持网络权重冻结的情况下高效发现强彩票子网络,从而在多种架构上实现了比现有方法更高的稀疏度且几乎无精度损失。
本文提出了 MedCBR 框架,通过将临床指南融入视觉 - 语言模型与概念推理,实现了从医学图像分析到符合指南的专家级诊断推理的端到端可解释性提升。
本文提出了一种基于数字孪生多保真网络的层次化强化学习框架,通过联合优化天线倾角调整策略与物理/虚拟网络数据采集比例,在满足时延约束的同时最大化用户数据速率,并显著降低了物理网络的数据采集延迟。