Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE
该论文系统研究了部分旋转位置编码(Partial RoPE)对 Transformer 模型训练动态和收敛性的影响,发现仅需对约 10% 的隐藏维度应用 RoPE 即可在保持与全量 RoPE 相当性能的同时实现高达 10 倍的显存节省,并为平衡效率与训练稳定性提供了实用指导。
3761 篇论文
该论文系统研究了部分旋转位置编码(Partial RoPE)对 Transformer 模型训练动态和收敛性的影响,发现仅需对约 10% 的隐藏维度应用 RoPE 即可在保持与全量 RoPE 相当性能的同时实现高达 10 倍的显存节省,并为平衡效率与训练稳定性提供了实用指导。
本文提出了名为"Shape-of-You"的新框架,通过结合 3D 基础模型与锚点线性化的融合 Gromov-Wasserstein 最优传输方法,在无需显式几何标注的情况下解决了语义对应中的几何歧义问题,并在 SPair-71k 和 AP-10k 数据集上取得了最先进性能。
本文提出了基于高斯生成建模的个性化联邦学习方法 pFedGM,通过解耦特征提取与分类器、利用加权重采样建模客户端异质性,并引入受卡尔曼增益启发的双尺度融合框架,在兼顾全局协作与局部个性化的同时实现了优越的泛化性能。
该论文通过系统性研究揭示,对于大型预训练视觉 - 语言 - 动作(VLA)模型而言,结合低秩适应(LoRA)的简单序列微调策略在持续强化学习中表现卓越,不仅能有效避免灾难性遗忘并保留零样本泛化能力,其效果甚至优于复杂的持续学习方法。
本文提出了一种名为神经调节约束自编码器(NcAE)的新方法,通过引入神经调节机制动态调整几何约束参数,成功实现了在多变环境条件下解耦全局上下文与局部流形表示的自适应降维学习。
该论文指出传统策略梯度算法在训练过程中会自然降低熵值从而限制探索多样性,因此提出通过 REPO 和 ADAPO 等显式熵控制机制来维持策略的多样性,从而提升模型性能并增强其在后续环境中的持续学习能力。
本文提出了一种名为“因果韵律中介”的新型文本转语音框架,通过结合结构因果模型与反事实训练目标,在 FastSpeech2 架构中成功解耦了情感与语言内容,实现了可解释且可控的情感韵律编辑,显著提升了合成语音的情感表现力与跨说话人一致性。
本文针对决策树模型中因标签随机性导致的观测多重性,提出了叶节点遗憾与结构遗憾两种互补度量并建立理论分解框架,实验表明结构遗憾是多重性的主要驱动因素,且利用该度量进行选择性预测可显著提升模型安全性。
本文提出了 EvoFlows,一种基于进化编辑流匹配的变长序列到序列蛋白质建模方法,它通过控制插入、删除和替换操作来预测突变及其位置,在保持与主流掩码语言模型相当的序列分布建模质量的同时,展现出从模板蛋白生成非平凡且自然类突变体的更优能力。
该论文提出了 CRAN-PM 模型,这是一种利用跨分辨率注意力机制高效融合全球气象数据与局部高分辨率 PM2.5 信息的视觉 Transformer,能够在单张 GPU 上快速生成全欧洲 1 公里分辨率的 PM2.5 预测图,并显著提升了预测精度及复杂地形下的偏差表现。
本文提出了 CINDI 框架,这是一种基于条件归一化流的无监督概率方法,通过统一异常检测与插补任务,有效恢复了受噪声和异常值破坏的电力网格等多变量时间序列数据的完整性。
本文基于九个信贷风险基准数据集的实证分析表明,后验校准(特别是 Platt 缩放和等温回归)能有效降低分类器在 Rashomon 集合内的预测多重性,从而缓解算法任意性并提升程序公平性。
该论文提出了一种基于条件归一化流的异常检测方法,通过在潜在空间引入显式归纳偏置并约束其遵循预设的时间动态,将异常检测转化为对潜在轨迹分布的统计一致性检验,从而有效解决了传统基于观测空间似然的方法难以识别违背时序结构异常的问题。
本文提出了一种基于自由能的社会多臂老虎机学习算法,使智能体能够在无需奖励信息或先验规范的情况下,自主评估并有效利用非专家及多样化同伴的行为策略,从而在保持对数遗憾的同时显著提升个体学习性能。
该论文通过将导航视为受记忆约束的序贯决策问题,扩展了信息嗅探理论,提出用户基于局部与全局线索进行“适度”检查而非全盘扫描的模型,成功解释了试错导航中的 premature 选择、误入歧途及回退恢复等关键行为。
本文证明了在-集半带问题中,结合特定分布(Fréchet 和 Pareto)与几何重采样的 Follow-the-Perturbed-Leader (FTPL) 算法,不仅能在对抗和随机设置下分别达到最优的对数遗憾,实现“双世界”最优性,还将计算复杂度从降低至。
该论文从学习理论视角出发,通过引入“重放对手”模型,精细刻画了生成式语言模型在训练数据混入自身历史输出(即模型崩溃)时的学习极限,揭示了重放机制虽不影响最强的一致性生成,却会破坏较弱的非一致性及极限生成能力,从而从理论上验证了数据清洗等实践策略的有效性及其局限性。
该论文提出了一种无需先验知识的无监督方法,使具身智能体能够自主发现动作空间的对称群结构,并证明了在最小假设下真实对称群分解的可识别性,从而实现了更优的线性对称解耦表示学习。
该论文通过揭示 LiRA、RMIA 和 BASE 等主流成员推理攻击均属于具有不同分布假设的指数族对数似然比框架,进而提出了基于共轭先验的贝叶斯方差推断攻击(BaVarIA),有效解决了小影子模型预算下的方差估计瓶颈,在多个数据集和预算设置下实现了优于现有方法的稳定性能。
该论文提出了 OSMDA 框架,通过利用基础视觉语言模型将遥感图像与 OpenStreetMap 渲染图配对并自动生成富含元数据的描述,实现了无需人工标注或更强教师模型即可完成的遥感领域自适应,并在多项基准测试中取得了优于现有方法的性能。