OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality
本文提出了名为 OptEMA 的自适应指数移动平均优化器及其两个变体,通过引入闭环、无需 Lipschitz 常数的机制,在标准随机梯度下降假设下实现了噪声自适应的收敛率,并在零噪声情形下无需手动调整超参数即可达到近乎最优的确定性收敛速度。
2315 篇论文
本文提出了名为 OptEMA 的自适应指数移动平均优化器及其两个变体,通过引入闭环、无需 Lipschitz 常数的机制,在标准随机梯度下降假设下实现了噪声自适应的收敛率,并在零噪声情形下无需手动调整超参数即可达到近乎最优的确定性收敛速度。
该论文从谱分析和变分视角揭示了生成漂移与得分匹配之间的本质联系,通过线性化麦基恩 - 弗拉索夫动力学和形式化最优传输梯度流,不仅解释了高斯核的频域瓶颈并提出了指数带宽退火策略,还从理论层面证明了停止梯度算子在训练稳定性中的必要性。
本文提出了名为 SignalMC-MED 的多模态基准,利用包含 22,256 次就诊的同步单导联 ECG 和 PPG 数据评估生物信号基础模型,发现领域专用模型优于通用模型、多模态融合优于单模态输入,并揭示了长信号段、小模型及手工特征在特定场景下的优势。
该论文提出利用过拟合 - 欠拟合指示器(OUI)作为早期信号,通过分析 PPO 中隐藏神经元的激活模式变化来区分学习率设置,从而在训练初期高效筛选出最优策略并避免全量训练。
该论文提出了“神经调试器”这一新概念,通过微调大语言模型或从头预训练小模型,使其能够像传统调试器一样支持断点设置和步进操作,从而实现对 Python 程序正向执行预测与逆向状态推断的可靠建模,为构建具备模拟调试能力的智能体编程系统奠定了基础。
该论文通过引入具有层可组合性的均值归一化算子范数,将 AdamW 和 Muon 等优化器统一为矩阵算子范数下的最速下降法,从而提出了能实现宽度无关平滑度保证及跨宽度超参数迁移的 MOGA 优化器,并在 GPT-2 和 LLaMA 的大规模预训练中展现出比 Muon 更优的效率与稳定性。
该论文提出了 C2FMAE,一种通过语义、实例和像素三级粒度协同学习及渐进式掩码策略来解决自监督视觉预训练中全局语义与局部细节矛盾的新型分层掩码自编码器,并在大规模多粒度数据集上验证了其在多种视觉任务中的卓越性能。
该论文通过新颖的道德权衡数据集发现,与人类不同,推理过程能显著提升大语言模型的诚实度,其根本原因在于欺骗性回答在表征空间中处于亚稳态,而推理生成的思维链通过遍历该空间将模型推向更稳定的诚实默认状态。
该论文通过引入“词袋超叠加”(BOWS)实验环境,揭示了在真实数据中特征相关性可使干扰变为建设性,从而促使模型将特征按共激活模式排列以形成语义聚类和循环结构,弥补了传统超叠加理论仅关注稀疏无相关特征的不足。
该论文提出了任务感知调制与表示学习(TAM-RL)框架,通过结合时空表示学习、知识引导的编解码架构以及基于碳平衡方程的损失函数,有效克服了现有数据驱动方法在泛化性和区域偏差上的局限,显著提升了全球陆地碳通量上推的精度与鲁棒性。
本文提出了两种基于神经网络和在线学习的变化点检测方法,它们具有线性计算复杂度,在合成及真实数据集上的实验表明其性能优于现有方法,并证明了算法的收敛性及其在特定条件下优于离线方法的优势。
本文提出了一种结合群智能优化算法的白盒支持向量机框架,通过分析主轴振动特征并利用递归特征消除进行筛选,实现了对铣刀磨损及断裂等故障的实时监测与状态评估。
本文综述了自动化强化学习(AutoRL)的相关文献,涵盖了从 MDP 建模、算法选择到超参数优化的自动化工具及基于大语言模型的最新技术,并探讨了该领域的未来挑战与研究方向。
该论文提出了一种将数据不确定性作为额外输入的可解释子序列模型,在保持与最先进方法相当分类性能的同时,解决了现有可解释时间序列方法在处理天文不确定时间序列时性能不足的问题,并能为天体物理理论建模提供新的见解。
该论文提出了一种基于高斯过程回归的集成学习方法,用于预测股票条件预期收益,实证表明该方法在统计和经济指标上均优于现有机器学习模型,并能通过利用预测不确定性构建均值 - 方差最优投资组合,显著跑赢标普 500 指数。
该论文研究了通过直接预测多步成本而非观测或动作来学习潜在状态表示的方法,并针对有限时变线性二次高斯(LQG)控制问题,首次建立了该成本驱动方法能够找到近优状态表示函数和近优控制器的有限样本理论保证。
该论文提出了名为 MU-Mis 的机器学习遗忘方法,通过理论揭示样本贡献体现为模型对其敏感度的增加,并直接抑制这种敏感度,从而在无需访问剩余数据的情况下实现了与依赖剩余数据方法相当的高效遗忘效果,同时保持了模型在剩余数据上的效用。
本文从机器学习视角出发,对计算机化自适应测试(CAT)进行了全面综述,深入探讨了测量模型、选题算法、题库构建及测试控制等核心环节如何利用机器学习技术进行优化,旨在推动心理测量学与机器学习的跨学科融合,以构建更稳健、公平且高效的自适应测试系统。
该论文提出了一种将环境记忆编码为耗散子(dissipatons)的神经量子态框架(NQS-DQME),通过构建耗散子嵌入量子主方程,在保持与精确层级运动方程相当精度的同时,显著提升了模拟非马尔可夫开放量子系统多体关联与记忆效应的可扩展性与可解释性。
本文提出了 LoRA-Ensemble,一种基于低秩适应(LoRA)的参数高效隐式集成方法,它通过让多个集成成员共享预训练自注意力网络并仅使用独立的低秩投影矩阵,在显著降低计算和内存成本的同时,实现了超越现有隐式技术、媲美显式集成且校准更优的预测性能。