ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning
该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题,提出了一种名为 ReMix 的新方法,通过引入不可学习的路由权重确保各 LoRA 平等激活,并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计,从而在参数量相当的情况下显著提升了微调性能。
8185 篇论文
该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题,提出了一种名为 ReMix 的新方法,通过引入不可学习的路由权重确保各 LoRA 平等激活,并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计,从而在参数量相当的情况下显著提升了微调性能。
该论文提出了一种名为 DT-BEHRT 的图增强序列架构,通过显式建模器官系统内的诊断交互并捕捉异步疾病进展模式,结合基于轨迹的代码掩码与本体论祖先预测的预训练策略,实现了具有可解释性且符合临床推理的电子健康记录患者表征学习。
该论文建立了基于随机镜像下降的自适应采样稳定性理论,提出了一种兼具最小化遗憾与有效统计推断(如置信区间覆盖)能力的正则化 EXP3 算法,并证明了其在面对少量恶意污染时的鲁棒性。
本文提出了名为 ARCHE 的端到端学习图像压缩框架,该框架通过统一分层、空间和通道先验并结合自适应特征重校准与残差细化技术,在不依赖循环或 Transformer 组件的情况下,以 95M 参数和每图 222ms 的运行时间实现了比 Balle 基准、Minnen & Singh 模型及 VVC 内帧编码更优的率失真性能。
该论文提出了一种名为自适应激活消除(AAC)的推理时框架,通过借鉴自适应噪声消除技术识别并抑制大语言模型中的幻觉神经激活,在无需微调或外部知识的情况下,于所有测试模型规模上显著提升了事实准确性,同时实现了零能力退化。
本文提出了一种“演员加速策略对偶平均(Actor-Accelerated PDA)”方法,通过引入策略网络近似解决连续动作空间中的优化子问题,在保持收敛性保证的同时显著提升了计算效率,并在多个基准测试中展现出优于 PPO 等主流基线的性能。
本文提出了一种结合拉普拉斯分位数离散化与泊松跳跃持续机制的混合隐马尔可夫模型,通过直接转移计数估计参数,在 SPY 数据实证中实现了分布保真度、时间结构及尾部覆盖率的综合最优表现,并扩展至多资产相关路径生成。
本文提出了“灵活截断学习”(FCL)方法,通过训练时随机采样截断半径,使机器学习势函数能在部署后根据特定应用需求优化每个原子的截断半径,从而在不重新训练的情况下实现精度与计算成本的最佳平衡。
该论文提出了一种名为 FusionNet 的神经网络,旨在从短时程采集的心脏磁共振图像中重建高时间分辨率的 4D 心脏运动模型,实验表明其 Dice 系数超过 0.897,在形状恢复精度上优于现有方法。
本文提出了一种基于谱图理论的物种树重建可扩展分治算法 SDSR,该算法在理论保证下,通过递归划分物种子集并合并子树,在保持与全数据方法相当的重建精度的同时,显著提升了计算效率。
该论文研究了 臂随机多臂老虎机中策略梯度的连续时间扩散近似,证明了在特定学习率下可实现对数级遗憾,并构造了仅含对数级臂的实例以证明若学习率过大则遗憾将呈线性增长。
该论文通过系统研究多种非欧几里得距离度量(如余弦、Bray-Curtis 和马氏距离)替代欧氏距离来扩展谐波损失函数,并在视觉和语言模型上验证了其在提升模型性能、可解释性及训练可持续性(降低碳排放)方面的综合优势。
本文提出了一种用于求解具有随机目标函数及确定性非线性约束优化问题的信任域内点随机序列二次规划(TR-IP-SSQP)方法,该方法通过构建满足自适应精度条件的随机 Oracle 并结合内点法处理不等式约束,在标准假设下证明了其几乎处处收敛到一阶驻点,并在 CUTEst 测试集和逻辑回归问题上验证了其实际性能。
该论文提出了 I2X 框架,通过量化训练过程中基于原型(prototypes)的进展,将非结构化的可解释性转化为结构化解释,从而不仅忠实揭示了图像分类模型的决策机制,还能通过识别不确定原型并针对性微调样本以提升模型预测精度。
该论文针对类别增量学习中任务步长不平衡的挑战,提出了名为 One-A 的统一框架,通过非对称子空间对齐、信息自适应加权及方向门控机制,将多任务更新高效融合至单一适配器中,在保持恒定推理成本的同时显著提升了模型在动态任务规模下的性能与稳定性。
该研究证明了一种用于求解偏微分方程的原生脉冲神经形态算法具有内在的容错性,能够容忍高达 32% 的神经元损毁和 90% 的脉冲丢失而不显著降低计算精度,且这种鲁棒性可通过结构超参数进行调节。
本文提出了名为 SiMPO 的简单统一框架,通过引入带符号测度匹配和 -散度正则化,将扩散强化学习中的重加权方案推广至任意单调函数,从而有效利用负样本反馈并避免策略过度贪婪,显著提升了算法性能。
本文证明了当贝叶斯层次模型中给定超参数的先验为最大熵分布时,通过对超参数积分得到的参数边缘先验同样具有最大熵性质,只是其约束条件变为对未知量某函数的边缘分布的约束,从而揭示了层次模型所隐含的假设信息。
该论文针对 TabPFN 因特征生成顺序与因果结构冲突而产生虚假相关的问题,提出了结合有向无环图(DAG)和部分有向无环图(CPDAG)的因果感知条件生成策略,显著提升了合成数据的结构保真度、分布对齐性及因果效应(ATE)的保留能力。
该研究通过机械可解释性方法,从单细胞基础模型 scGPT 中提取并验证了一个紧凑的造血算法,该算法在无需目标数据集重训练的情况下,在发育分支结构解析和细胞亚型分类等任务上显著优于现有主流方法,并揭示了其内部由特定基因程序构成的核心机制。