Combinatorial Allocation Bandits with Nonlinear Arm Utility
该论文针对匹配平台中因过度集中匹配导致用户流失的问题,提出了结合“臂满意度”的新在线学习问题“组合分配多臂老虎机(CAB)”,并设计了基于置信上界和汤普森采样的算法,在广义线性模型下实现了近似后悔值上界,并通过实验验证了其有效性。
9539 篇论文
该论文针对匹配平台中因过度集中匹配导致用户流失的问题,提出了结合“臂满意度”的新在线学习问题“组合分配多臂老虎机(CAB)”,并设计了基于置信上界和汤普森采样的算法,在广义线性模型下实现了近似后悔值上界,并通过实验验证了其有效性。
该论文提出了名为 Self-MOA 的全自动框架,利用自动化评估模型提供的弱监督信号,通过动态生成红队提示和多目标偏好优化,在显著减少训练数据依赖的同时,有效提升了小型语言模型的安全性与有用性。
本文提出了名为 TEA-Time 的框架,用于将随机对照试验的治疗效应跨时间外推至未进行实验的时期,通过两种识别策略(重复试验与公共处理臂)构建了双重稳健估计量,并在 Upworthy 实验数据中揭示了精度与偏差之间的权衡关系。
该论文提出了名为 ReSched 的极简深度强化学习框架,通过重新定义马尔可夫决策过程将状态空间压缩至四个核心特征,并结合改进的 Transformer 架构,在降低建模复杂度的同时显著提升了柔性作业车间调度问题及其变体的求解性能与泛化能力。
本文提出了一种资源自适应的联邦文本生成框架,通过让强算力客户端进行差分隐私联邦微调、弱算力客户端通过轻量级差分隐私投票机制贡献合成数据,有效解决了跨域场景下计算异构与隐私保护带来的挑战,实现了全局分布对齐与下游任务鲁棒性的提升。
本文提出了名为 Artoo 的端到端机器人间通信系统,该系统通过联合优化轻量级文本转语音发射器与自动语音识别接收器,在无需保留自然语音特征的前提下,显著提升了噪声环境下的解码准确率,并具备在资源受限平台上高效部署的能力。
该论文提出了一种名为 IMD-AD 的可解释最大间隔深度异常检测方法,通过引入少量标记异常数据和最大间隔目标,解决了 Deep SVDD 易发生超球体坍塌、依赖启发式参数且缺乏可解释性的问题,实现了端到端的超球体参数学习并提升了检测性能与诊断能力。
该论文提出了一种熵感知在线策略蒸馏方法,通过在高熵场景下结合前向 KL 散度来克服传统反向 KL 散度导致的多样性丧失问题,从而在保持生成多样性的同时显著提升了语言模型在数学推理任务上的表现。
VLN-Cache 通过引入视图对齐重映射和任务相关性显著性过滤机制,解决了现有 Token 缓存方法在视觉与语义动态变化下的失效问题,从而在保持导航成功率的同时显著提升了 VLN 模型的推理速度。
该论文提出了 Dreamer-CDP,一种基于连续确定性表示预测的 JEPA 风格方法,成功消除了对重建目标的依赖,在 Crafter 基准测试中实现了与 Dreamer 相当的性能,从而弥补了无重建世界模型与 Dreamer 之间的差距。
该论文提出了名为 Countdown-Code 的测试环境,揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为,从而强调了严格验证合成 SFT 数据的必要性。
该论文提出了一种基于共形推断的分布无关框架,通过构建联合非一致性分数来量化闭环动力学的不确定性,从而将非高斯随机系统的机会约束转化为可处理的确定性约束,实现了具有有限样本统计保证的安全轨迹优化与控制。
该论文提出了一种基于轻量级深度生成架构的时空回归方法,通过内源性量化不确定性,在低频率流行病数据集上实现了优于现有基准的准确且可靠的概率预测。
该论文提出了一种名为 DualAdam 的新型优化器,通过结合 Adam 及其逆版本 InvAdam 的更新机制,在确保收敛性的同时利用扩散理论帮助模型逃离尖锐极小值,从而在图像分类和大语言模型微调任务中显著提升了泛化性能。
该论文提出了一种基于离线强化学习的智能体规划框架,通过结合链式思维推理与组合式图像编辑工具,将复杂图像风格化任务分解为可解释的工具序列,并利用合成数据显著提升了模型在视觉质量和指令遵循方面的表现。
该论文提出了一种通过系统性地调整注意力层谱特性以降低雅可比矩阵条件数、从而提升 Transformer 整体性能的理论分析与实用方法。
本文提出了涵盖多场景的 MSKernelBench 基准测试及多智能体硬件感知系统 CUDAMaster,旨在突破现有 LLM 仅优化机器学习算子的局限,实现了在科学计算等广泛领域内媲美甚至超越 cuBLAS 等闭源库的 CUDA 内核自动化优化。
该论文提出了一种名为“塑造参数贡献模式”(SPCP)的方法,通过训练期间动态抑制过高的参数贡献,促使分类器学习更密集的边界导向型参数依赖模式,从而有效缓解深度模型因过度依赖少数主导参数而导致的分布外(OOD)检测过自信问题。
本文提出了一种双图时空图神经网络代理模型,通过耦合节点级运动学与单元级历史相关变量的双分支结构,高效且准确地预测了变加载位置下钢筋混凝土梁在四点弯曲工况下的非线性时程响应。
本文提出了名为 wDPO 的鲁棒大语言模型对齐方法,通过利用 DPO 训练中的隐式边际信号实施分层干预策略(针对硬噪声进行数据级稀疏修正,针对模糊比较进行梯度级软截断),从而有效区分并处理不同类型的偏好噪声,显著提升了模型在含噪数据下的对齐质量与鲁棒性。