Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts
该论文针对时间序列预测中的分布漂移问题,提出了一种名为 TS_Adam 的轻量级优化器变体,通过移除二阶偏差校正来增强模型对非平稳数据的适应性,从而在无需额外超参数的情况下显著降低了预测误差。
4175 篇论文
该论文针对时间序列预测中的分布漂移问题,提出了一种名为 TS_Adam 的轻量级优化器变体,通过移除二阶偏差校正来增强模型对非平稳数据的适应性,从而在无需额外超参数的情况下显著降低了预测误差。
该论文提出了代码空间响应 oracle(CSRO)框架,通过利用大语言模型将多智能体策略生成重构为代码生成任务,从而在保持与基线相当性能的同时,解决了传统强化学习方法中策略不可解释的问题,并实现了可解释、多样化且具备人类智能特征的策略合成。
本文提出了名为 BlueDown 的新型后处理方法,通过利用层级结构设计的广义最小二乘回归算法及高效的线性代数运算,在满足美国人口普查局隐私保护和结构约束的前提下,显著提升了 2020 年人口普查数据在郡县和街区等层级上的估计准确性与一致性。
该论文提出了一种基于最高有效位(MSB)代理的“软稀疏”范式,通过将其集成到自定义 RISC-V 指令中,在保持零精度损失的前提下显著减少了卷积神经网络中的乘加操作并降低了功耗,从而有效克服了传统硬稀疏性在深层网络或平滑激活函数场景下的局限性。
CLIPO 通过将对比学习机制引入策略优化,解决了传统 RLVR 仅依赖最终答案而忽视中间步骤正确性所导致的幻觉与泛化问题,从而显著提升了大语言模型在推理任务中的鲁棒性与泛化能力。
该论文提出“中间迷失”现象是因果解码器在初始化阶段即存在的固有几何属性,源于残差连接与因果掩码共同作用导致的梯度影响分布,表现为首尾信息优势与中间区域的结构化训练敌对,且这一偏差在未经训练的模型中已显现并随标准预训练持续存在。
该论文提出了一种利用非平衡 Wasserstein 重心进行字典学习的方法,以克服现有基于 Wasserstein 空间的方法在平衡光谱分布时模糊类别并牺牲抗噪性的问题,从而实现更鲁棒的高光谱图像无监督聚类。
该论文提出了一种结合隐式数值格式的神经算子方法,仅需利用少量数据(如 7% 的带宽)即可训练模型以高精度(99.87%)预测线性单自由度系统的振动频率响应曲线,从而在不依赖物理正则化损失函数的情况下实现了对系统动力学规律的隐式学习并显著提升了工程振动研究的效率。
该论文提出了一种名为“混合学习(Mashup Learning)”的方法,通过识别并合并与目标任务最相关的历史检查点来优化模型初始化,从而在多个基准测试中显著提升了下游任务的准确率并大幅缩短了微调所需的训练时间和步数。
该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题,提出了一种名为 ReMix 的新方法,通过引入不可学习的路由权重确保各 LoRA 平等激活,并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计,从而在参数量相当的情况下显著提升了微调性能。
该论文提出了一种名为 DT-BEHRT 的图增强序列架构,通过显式建模器官系统内的诊断交互并捕捉异步疾病进展模式,结合基于轨迹的代码掩码与本体论祖先预测的预训练策略,实现了具有可解释性且符合临床推理的电子健康记录患者表征学习。
该论文建立了基于随机镜像下降的自适应采样稳定性理论,提出了一种兼具最小化遗憾与有效统计推断(如置信区间覆盖)能力的正则化 EXP3 算法,并证明了其在面对少量恶意污染时的鲁棒性。
本文提出了名为 ARCHE 的端到端学习图像压缩框架,该框架通过统一分层、空间和通道先验并结合自适应特征重校准与残差细化技术,在不依赖循环或 Transformer 组件的情况下,以 95M 参数和每图 222ms 的运行时间实现了比 Balle 基准、Minnen & Singh 模型及 VVC 内帧编码更优的率失真性能。
该论文提出了一种名为自适应激活消除(AAC)的推理时框架,通过借鉴自适应噪声消除技术识别并抑制大语言模型中的幻觉神经激活,在无需微调或外部知识的情况下,于所有测试模型规模上显著提升了事实准确性,同时实现了零能力退化。
本文提出了一种“演员加速策略对偶平均(Actor-Accelerated PDA)”方法,通过引入策略网络近似解决连续动作空间中的优化子问题,在保持收敛性保证的同时显著提升了计算效率,并在多个基准测试中展现出优于 PPO 等主流基线的性能。
本文提出了一种结合拉普拉斯分位数离散化与泊松跳跃持续机制的混合隐马尔可夫模型,通过直接转移计数估计参数,在 SPY 数据实证中实现了分布保真度、时间结构及尾部覆盖率的综合最优表现,并扩展至多资产相关路径生成。
本文提出了“灵活截断学习”(FCL)方法,通过训练时随机采样截断半径,使机器学习势函数能在部署后根据特定应用需求优化每个原子的截断半径,从而在不重新训练的情况下实现精度与计算成本的最佳平衡。
该论文提出了一种名为 FusionNet 的神经网络,旨在从短时程采集的心脏磁共振图像中重建高时间分辨率的 4D 心脏运动模型,实验表明其 Dice 系数超过 0.897,在形状恢复精度上优于现有方法。
本文提出了一种基于谱图理论的物种树重建可扩展分治算法 SDSR,该算法在理论保证下,通过递归划分物种子集并合并子树,在保持与全数据方法相当的重建精度的同时,显著提升了计算效率。
该论文研究了 臂随机多臂老虎机中策略梯度的连续时间扩散近似,证明了在特定学习率下可实现对数级遗憾,并构造了仅含对数级臂的实例以证明若学习率过大则遗憾将呈线性增长。