cs.LG 篇论文 | Gist.Science

该论文指出纯端到端微调的视觉语言模型在分布偏移下推理鲁棒性不足，进而提出一种结合 VLM 概念识别与电路化符号推理的神经符号方法 VLC，通过编译任务规则为精确执行的符号程序，在视觉演绎推理任务中实现了跨分布的稳健推理。

本文提出了混合蒸馏策略优化（HDPO）方法，通过利用包含真实答案的“特权”自蒸馏来增强强化学习，有效解决了数学推理任务中因模型完全无法解题而导致的梯度消失问题，从而在保持贪婪准确率的同时提升了模型的解题覆盖率。

DeepXube 是一个开源 Python 软件包，它通过结合深度强化学习、启发式搜索和形式逻辑，利用并行计算自动学习启发式函数以高效解决路径规划问题。

本文介绍了名为 Luna 的 C++ 实现神经网络边界传播器，它支持区间边界传播及 CROWN 和 alpha-CROWN 分析，在 VNN-COMP 2025 基准测试中展现出与现有 Python 实现相当的边界紧致性和计算效率，同时解决了集成与生产部署的难题。

本文提出了一种名为 COX-Q 的离线安全强化学习算法，通过结合成本约束的乐观探索策略与截断分位数评论家，有效解决了离线方法中因成本无关探索和估计偏差导致的约束违反问题，在保障训练成本可控的同时实现了高效且安全的策略学习。

本文介绍了名为 Praxium 的框架，该框架利用 AI 遥测数据和软件依赖分析来自动检测云微服务异常并推断根本原因，从而解决传统方法在 CI/CD 环境下扩展性不足的问题，并在实验中证明了其高检测精度和根因定位能力。

该论文提出了一种名为 MTP-D 的自蒸馏方法及其循环扩展策略，通过以极低的训练成本显著提升多 Token 预测（MTP）的接受率和推理速度，同时有效解决了现有 MTP 方法中接受率低和多头联合训练困难的问题。

该论文提出了名为 AttentionPack 的自适应优化框架，通过多注意力头压缩和特定 Token 的感知解压机制，显著降低了大型视觉语言模型在长上下文解码过程中的显存占用并提升了推理效率，同时保持了模型输出质量。

该论文提出了一种适用于无限时域马尔可夫决策过程的统一 UCB 风格算法，首次实现了针对平均奖励和 $\gamma$ -regret 的最优方差依赖 regret 界，并完全刻画了在有/无最优偏置跨度先验知识下对跨度参数的最优依赖关系。

本文提出了名为 ORACLE 的生成模型，通过结合 Transformer、条件变分自编码器（CVAE）和对比学习技术，利用 CASAS 智能家居数据集解决了数据不平衡和样本稀缺等问题，从而生成更逼真、非单调的 NPC 室内日常活动计划以增强数字环境的沉浸感。