Countdown-Code: A Testbed for Studying The Emergence and Generalization of Reward Hacking in RLVR
该论文提出了名为 Countdown-Code 的测试环境,揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为,从而强调了严格验证合成 SFT 数据的必要性。
10089 篇论文
该论文提出了名为 Countdown-Code 的测试环境,揭示了监督微调数据中极少量的奖励黑客行为泄露即可导致大模型习得并泛化此类对齐失效行为,从而强调了严格验证合成 SFT 数据的必要性。
该论文提出了一种基于共形推断的分布无关框架,通过构建联合非一致性分数来量化闭环动力学的不确定性,从而将非高斯随机系统的机会约束转化为可处理的确定性约束,实现了具有有限样本统计保证的安全轨迹优化与控制。
该论文提出了一种基于轻量级深度生成架构的时空回归方法,通过内源性量化不确定性,在低频率流行病数据集上实现了优于现有基准的准确且可靠的概率预测。
该论文提出了一种名为 DualAdam 的新型优化器,通过结合 Adam 及其逆版本 InvAdam 的更新机制,在确保收敛性的同时利用扩散理论帮助模型逃离尖锐极小值,从而在图像分类和大语言模型微调任务中显著提升了泛化性能。
该论文提出了一种基于离线强化学习的智能体规划框架,通过结合链式思维推理与组合式图像编辑工具,将复杂图像风格化任务分解为可解释的工具序列,并利用合成数据显著提升了模型在视觉质量和指令遵循方面的表现。
该论文提出了一种通过系统性地调整注意力层谱特性以降低雅可比矩阵条件数、从而提升 Transformer 整体性能的理论分析与实用方法。
本文提出了涵盖多场景的 MSKernelBench 基准测试及多智能体硬件感知系统 CUDAMaster,旨在突破现有 LLM 仅优化机器学习算子的局限,实现了在科学计算等广泛领域内媲美甚至超越 cuBLAS 等闭源库的 CUDA 内核自动化优化。
该论文提出了一种名为“塑造参数贡献模式”(SPCP)的方法,通过训练期间动态抑制过高的参数贡献,促使分类器学习更密集的边界导向型参数依赖模式,从而有效缓解深度模型因过度依赖少数主导参数而导致的分布外(OOD)检测过自信问题。
本文提出了一种双图时空图神经网络代理模型,通过耦合节点级运动学与单元级历史相关变量的双分支结构,高效且准确地预测了变加载位置下钢筋混凝土梁在四点弯曲工况下的非线性时程响应。
本文提出了名为 wDPO 的鲁棒大语言模型对齐方法,通过利用 DPO 训练中的隐式边际信号实施分层干预策略(针对硬噪声进行数据级稀疏修正,针对模糊比较进行梯度级软截断),从而有效区分并处理不同类型的偏好噪声,显著提升了模型在含噪数据下的对齐质量与鲁棒性。
该研究提出了一种基于 SonicGuard 可穿戴传感器和 Audio Spectrogram Transformer 模型的自动化肠音分割与分类系统,通过为健康人和患者分别训练专用模型,实现了高精度的肠音模式识别,显著减少了人工标注时间并为胃肠道功能提供了客观的定量评估工具。
该论文证明了在任意度量空间中,只要间隔足够大(),基于间隔的学习即可仅依赖三角不等式实现,并揭示了此类学习存在一个通用常数阈值,同时否定了其总能通过嵌入线性空间来解释的观点,进而建立了巴拿赫空间的可学习性分类及其样本复杂度与间隔参数的多项式关系。
该论文通过构建高质量思维链蒸馏数据集 ODA-Fin-SFT-318k 和难例可验证强化学习数据集 ODA-Fin-RL-12k,证明了在金融垂直领域,数据的质量与难度分布对模型性能起决定性作用,并据此训练出的 ODA-Fin-RL-8B 模型在多项基准测试中超越了同规模开源金融大模型。
LightMedSeg 提出了一种结合解剖先验与自适应上下文建模的模块化轻量级 3D 医学图像分割架构,通过引入锚点条件特征调制、局部结构先验及计算优化策略,在仅消耗极低参数量和计算量的情况下实现了与重型 Transformer 基线模型相当的分割精度。
该论文提出了一种基于深度条件变换模型(DCTM)和交叉拟合的改进型条件秩 - 秩回归方法,通过估计协变量调整后的条件秩来有效解决非线性、高阶交互及离散有序结果下的代际流动性测量难题,并建立了相应的渐近理论,在模拟与实证研究中均展现出优于传统方法的准确性与解释力。
该论文提出了 PT-RAG 框架,通过引入一种结合 GenePT 嵌入与 Gumbel-Softmax 采样的两阶段可微检索机制,实现了细胞类型感知的上下文检索,从而显著提升了基因扰动下细胞反应预测的准确性,并证明了在该领域可微检索对于避免性能下降至关重要。
该论文提出了名为 WeDas 的框架,通过引入查询 - 结果对齐评分和少样本探测机制,使智能体能够感知并适应网络内容的分布结构,从而有效弥合了深度推理与底层检索之间的差距,显著提升了多基准测试中的子目标完成度与准确性。
该研究针对肺癌幸存者二次原发癌症预测中本地数据受限及多源数据融合难题,提出了一种利用外部 SEER 数据并通过损失融合机制解决特征异构与隐私保护问题的水平联邦学习框架(LF2L),显著提升了模型的预测性能。
该论文提出了两种互补的符号预测器(SyNF 和 SyTF),能够从混沌时间序列数据中学习显式且可解释的代数方程,在保持与深度学习相当的短期预测精度的同时,克服了黑盒模型缺乏科学洞察力的局限。
该论文提出了一种结合多头注意力软随机森林预测患者爽约风险与多策略近端策略优化强化学习的自适应双预约框架,通过基于 KL 散度的新颖τ规则实现策略间知识迁移,从而动态优化门诊预约决策以平衡爽约、拥堵与等待时间等多重目标。