TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge
本文提出了 TrainDeeploy 框架,该框架在异构超低功耗片上系统(SoC)上实现了首个支持 CNN 和 Transformer 模型的端到端设备端微调流水线,通过结合选择性分层微调与低秩适应(LoRA)等参数高效策略,显著降低了极端边缘设备上的计算与内存开销。
2296 篇论文
本文提出了 TrainDeeploy 框架,该框架在异构超低功耗片上系统(SoC)上实现了首个支持 CNN 和 Transformer 模型的端到端设备端微调流水线,通过结合选择性分层微调与低秩适应(LoRA)等参数高效策略,显著降低了极端边缘设备上的计算与内存开销。
该论文揭示了语言模型在仅通过语义无关甚至内容相悖的忠实改写数据进行训练时,仍会隐式习得生成模型(教师模型)的特定偏好(如动物喜好),表明基于内容审查的过滤机制无法有效阻断此类“潜意学习”风险。
该论文提出了名为 EDA 的参数与数据高效框架,通过解耦架构、数据再生策略及样本选择机制,在显著降低训练成本的同时,有效解决了目标模型微调后推测解码性能下降的问题。
本文提出了 BRACE 算法,旨在解决带有不合规(Noncompliance)的 Bandit 问题中推荐福利与直接控制治疗目标不一致的矛盾,通过参数化相位倍增策略实现 IV 逆运算的矩阵认证与诚实结构区间估计,从而在保障统计有效性的同时,根据上下文同质性等条件灵活识别最优推荐或治疗策略。
该论文提出了一种基于 XLA 编译器的 Mamba-2 状态空间模型实现方案,通过仅使用标准算子而非定制 CUDA 内核,在 CPU、NVIDIA GPU 和 Google TPU 上实现了可移植的 自回归缓存推理,并达到了与 PyTorch/CUDA 参考实现一致的精度和显著的性能。
本文研究了在存在错误次数有界的不可靠条件独立性预言机情况下,马尔可夫网络与贝叶斯网络的结构学习问题,指出马尔可夫网络在特定路径参数下即使容忍指数级错误仍可唯一识别结构,而贝叶斯网络则无法容忍任何错误,并提出了相应的结构学习算法。
该论文针对传统三角最大过滤图(TMFG)在处理大规模数据时因需预计算稠密相关矩阵而面临的内存与运行效率瓶颈,提出了一种结合 k 近邻图与按需估算缺失相关性的近似算法(a-TMFG),从而实现了在百万级观测数据集上高效构建用于机器学习任务的稀疏图结构。
该论文提出了一种基于最优控制理论的 Transformer 训练新框架,通过将架构建模为离散时间受控粒子系统并转化为概率测度上的马尔可夫决策过程,在无需平滑性或凸性假设的前提下,证明了全局最优策略的存在性,并给出了具有稳定性与实证一致性的三重量化训练方案。
本文提出了传感器条件扩散策略(SCDP),通过混合观测蒸馏技术,使双足机器人仅依靠机载传感器即可在无需显式状态估计的情况下,实现媲美全状态观测基线的鲁棒运动控制与真实部署。
该论文提出了“无遗忘路由”(RwF)架构,通过在 Transformer 中引入基于能量的关联检索层(受现代 Hopfield 网络启发),实现了无需任务标识或迭代优化的动态提示生成,从而在严格在线持续学习场景下显著优于现有的提示微调方法。
该论文揭示了 Adam 优化器在高度退化多项式函数上无需外部调度即可实现局部线性收敛的内在机制,证明了其通过二阶矩与梯度平方的解耦效应显著优于梯度下降和动量法,并刻画了其超参数的三种行为相图。
本文提出了一种基于最小化 Rényi 散度上界的参数裁剪策略,通过约束 NVIB 模型的后验参数,有效解决了非参数变分差分隐私中潜在表示漂移导致的隐私保障不足与数值不稳定问题,从而在增强隐私保护的同时提升了下游任务的性能。
该论文通过构建并证明下界,确立了深度 ReLU 神经网络在记忆个数据点时,其宽度与深度需满足的最优权衡关系。
本文提出了一种基于 MM 算法的统一框架,用于在 Tweedie 和负二项分布等更广泛的噪声假设下推导传统及凸非负矩阵分解(NMF)的乘性更新规则,并通过实证研究验证了该框架在处理过离散数据及大规模类别场景下的优越性。
本文提出了一种名为 BrainHO 的脑网络层次组织学习方法,通过设计分层注意力机制和正交约束策略,突破传统预定义子网络的局限,直接从内在特征中学习脑网络依赖关系,从而在自闭症和抑郁症等脑疾病诊断中实现了最先进的分类性能并发现了可解释的生物学标志物。
本文提出了名为 SparseLoom 的演示系统,通过无需重训练的模型拼接技术从稀疏模型中生成变体,从而在边缘 SoC 上实现多 DNN 推理,显著降低了服务等级目标违规率并提升了吞吐量与内存效率。
这篇综述系统分析了光子量子机器学习系统中的噪声来源及其对性能的影响,探讨了相关算法与噪声表征技术,并总结了噪声缓解策略与未来研究方向。
该论文提出了一种基于条件生成对抗网络(cGAN)的框架,利用测井数据中的孔隙度信息,从稀疏的岩石薄片数据中合成连续的碳酸盐岩孔隙尺度图像,从而有效填补了储层表征中的深度间隙并支持碳捕获与地下储氢等应用。
该论文提出了 FreqCycle 及其分层扩展 MFreqCycle 框架,通过结合时域滤波增强循环预测与频域分段模式学习,有效挖掘了被忽视的中高频特征并解耦多周期耦合,从而在多个基准测试中实现了兼具高精度与高效率的时间序列预测。
该论文通过引入可控偏差的评估框架,实证分析了标签偏差和选择偏差对分类模型评估、性能及去偏方法有效性的差异化影响,揭示了在无偏测试集下公平性与准确性之间不存在权衡,并强调了针对特定偏差类型优化评估与缓解策略的重要性。