cs.LG 篇论文 | Gist.Science

DeepXube 是一个开源 Python 软件包，它通过结合深度强化学习、启发式搜索和形式逻辑，利用并行计算自动学习启发式函数以高效解决路径规划问题。

本文介绍了名为 Luna 的 C++ 实现神经网络边界传播器，它支持区间边界传播及 CROWN 和 alpha-CROWN 分析，在 VNN-COMP 2025 基准测试中展现出与现有 Python 实现相当的边界紧致性和计算效率，同时解决了集成与生产部署的难题。

本文提出了一种名为 COX-Q 的离线安全强化学习算法，通过结合成本约束的乐观探索策略与截断分位数评论家，有效解决了离线方法中因成本无关探索和估计偏差导致的约束违反问题，在保障训练成本可控的同时实现了高效且安全的策略学习。

本文介绍了名为 Praxium 的框架，该框架利用 AI 遥测数据和软件依赖分析来自动检测云微服务异常并推断根本原因，从而解决传统方法在 CI/CD 环境下扩展性不足的问题，并在实验中证明了其高检测精度和根因定位能力。

该论文提出了一种名为 MTP-D 的自蒸馏方法及其循环扩展策略，通过以极低的训练成本显著提升多 Token 预测（MTP）的接受率和推理速度，同时有效解决了现有 MTP 方法中接受率低和多头联合训练困难的问题。

该论文提出了名为 AttentionPack 的自适应优化框架，通过多注意力头压缩和特定 Token 的感知解压机制，显著降低了大型视觉语言模型在长上下文解码过程中的显存占用并提升了推理效率，同时保持了模型输出质量。

该论文提出了一种适用于无限时域马尔可夫决策过程的统一 UCB 风格算法，首次实现了针对平均奖励和 $\gamma$ -regret 的最优方差依赖 regret 界，并完全刻画了在有/无最优偏置跨度先验知识下对跨度参数的最优依赖关系。

本文提出了名为 ORACLE 的生成模型，通过结合 Transformer、条件变分自编码器（CVAE）和对比学习技术，利用 CASAS 智能家居数据集解决了数据不平衡和样本稀缺等问题，从而生成更逼真、非单调的 NPC 室内日常活动计划以增强数字环境的沉浸感。

该研究探讨了利用大语言模型（如 Gemini 2.5）在医患问诊中生成基于循证医学指南的针对性问题，以辅助医生推理并减轻认知负担，实验结果表明尽管模型尚不完全可靠，但已能生成具有临床意义和指南相关性的问题，展现出在初级医疗场景中落地应用的潜力。

本文提出了 ChargeFlow 模型，这是一种基于流匹配技术的电荷条件电子密度 refinement 方法，它利用 3D U-Net 速度场将原子密度叠加态转化为 DFT 电子密度，在包含多种材料体系的基准测试中显著提升了电荷响应精度，并成功实现了下游化学分析（如 Bader 划分）的可靠应用。