Reward-Zero: Language Embedding Driven Implicit Reward Mechanisms for Reinforcement Learning
该论文提出了 Reward-Zero,一种利用语言嵌入将自然语言任务描述转化为密集语义进展信号的通用隐式奖励机制,旨在无需特定任务工程的情况下加速强化学习训练、提升泛化能力并解决复杂任务。
5125 篇论文
该论文提出了 Reward-Zero,一种利用语言嵌入将自然语言任务描述转化为密集语义进展信号的通用隐式奖励机制,旨在无需特定任务工程的情况下加速强化学习训练、提升泛化能力并解决复杂任务。
该论文针对图异常检测中的跨域泛化难题,提出了一种名为 TA-GGAD 的测试时自适应图基础模型,通过定义并建模“异常异配性”(Anomaly Disassortativity)特征失配问题,实现了仅需单次训练即可在多个不同领域图上达到最先进的检测精度。
本文提出了一种数据驱动框架,通过结合多层感知机回归器与条件生成对抗网络来预测材料挤出增材制造中的表面粗糙度,并开发了交互式 3D 可视化决策支持系统,以在制造前直观评估不同工艺参数和朝向对零件表面质量的影响。
该论文提出了一种结合差分隐私的零阶优化框架,将数据集压缩技术扩展至决策树和 Cox 回归等非可微临床模型,从而在保护患者隐私的同时实现了模型无关的临床数据共享。
本文提出了一种名为 CAHC 的端到端对比学习方法,通过结合节点与超边级别的对比学习目标以及聚类导向的联合优化,实现了属性超图嵌入学习与聚类结果的同步获取,从而在八个数据集上取得了优于现有基线的性能。
本文提出了一种结合 Voronoi 增强传感器优化的物理信息神经网络(VSOPINN),通过可微 Voronoi 构建与端到端传感器布局优化,显著提升了稀疏及故障条件下复杂流场的高保真重构精度与鲁棒性。
本文提出了 SPAARS 框架,通过结合课程学习策略,先在低维潜在空间进行安全高效的探索以规避重建损失带来的性能瓶颈,再无缝过渡到原始动作空间进行精细化利用,从而在离线到在线强化学习中显著提升了样本效率与最终性能。
该论文提出了全卷积扩散模型(FCDM),通过采用类似 ConvNeXt 的骨干网络,在显著降低计算成本、训练步数和硬件需求的同时,实现了与主流 Transformer 架构相媲美的生成性能,从而证明了现代卷积设计是高效扩展扩散模型的有效替代方案。
本文针对稀疏采样 GPS 数据在密集城市环境中匹配路网时存在的效率与精度局限,提出了包含动态缓冲区、自适应观测概率、改进的时间评分函数及行为分析在内的四项算法优化策略,并通过米兰真实数据验证了其在提升计算效率与路径质量方面的显著成效。
本文通过颜色混合任务系统分析了马尔可夫决策过程(MDP)设计要素对强化学习仿真到现实迁移的影响,并验证了基于物理的动力学模型在严格精度约束下能显著提升工业过程控制的实际成功率。
本文针对上下文多臂老虎机中的离线策略评估问题,提出了一种利用非参数模型构建权重以降低方差的非参数加权(NW)方法,并进一步结合奖励预测构建了模型辅助的非参数加权(MNW)估计器,在保持低偏差的同时显著提升了估计精度并优于现有技术。
本文提出了变分混合专家路由(VMoER)框架,通过将贝叶斯推理限制在专家选择阶段,在几乎不增加计算成本的情况下,显著提升了大规模混合专家模型在不确定性量化、路由稳定性及分布外检测方面的表现。
本文提出了一种名为“时间条件归一化流(tcNF)”的新框架,通过利用自回归机制对时间序列中的复杂依赖关系和不确定性进行精确建模,从而实现高效且鲁棒的异常检测。
本文提出了 TrainDeeploy 框架,该框架在异构超低功耗片上系统(SoC)上实现了首个支持 CNN 和 Transformer 模型的端到端设备端微调流水线,通过结合选择性分层微调与低秩适应(LoRA)等参数高效策略,显著降低了极端边缘设备上的计算与内存开销。
该论文揭示了语言模型在仅通过语义无关甚至内容相悖的忠实改写数据进行训练时,仍会隐式习得生成模型(教师模型)的特定偏好(如动物喜好),表明基于内容审查的过滤机制无法有效阻断此类“潜意学习”风险。
该论文提出了名为 EDA 的参数与数据高效框架,通过解耦架构、数据再生策略及样本选择机制,在显著降低训练成本的同时,有效解决了目标模型微调后推测解码性能下降的问题。
本文提出了 BRACE 算法,旨在解决带有不合规(Noncompliance)的 Bandit 问题中推荐福利与直接控制治疗目标不一致的矛盾,通过参数化相位倍增策略实现 IV 逆运算的矩阵认证与诚实结构区间估计,从而在保障统计有效性的同时,根据上下文同质性等条件灵活识别最优推荐或治疗策略。
该论文提出了一种基于 XLA 编译器的 Mamba-2 状态空间模型实现方案,通过仅使用标准算子而非定制 CUDA 内核,在 CPU、NVIDIA GPU 和 Google TPU 上实现了可移植的 自回归缓存推理,并达到了与 PyTorch/CUDA 参考实现一致的精度和显著的性能。
本文研究了在存在错误次数有界的不可靠条件独立性预言机情况下,马尔可夫网络与贝叶斯网络的结构学习问题,指出马尔可夫网络在特定路径参数下即使容忍指数级错误仍可唯一识别结构,而贝叶斯网络则无法容忍任何错误,并提出了相应的结构学习算法。
该论文针对传统三角最大过滤图(TMFG)在处理大规模数据时因需预计算稠密相关矩阵而面临的内存与运行效率瓶颈,提出了一种结合 k 近邻图与按需估算缺失相关性的近似算法(a-TMFG),从而实现了在百万级观测数据集上高效构建用于机器学习任务的稀疏图结构。