XConv: Low-memory stochastic backpropagation for convolutional layers
XConv 是一种无需修改架构或代码即可无缝集成的卷积层替代方案,它通过存储高度压缩的激活值并利用多通道随机迹估计来近似权重梯度,在显著降低显存占用(减少两倍以上)的同时保持了与精确梯度方法相当的训练性能。
2144 篇论文
XConv 是一种无需修改架构或代码即可无缝集成的卷积层替代方案,它通过存储高度压缩的激活值并利用多通道随机迹估计来近似权重梯度,在显著降低显存占用(减少两倍以上)的同时保持了与精确梯度方法相当的训练性能。
这篇论文系统回顾了截至 2026 年初的去中心化联邦学习方法,将其划分为传统分布式与基于区块链两大架构,提出了以核心瓶颈为导向的统一分类体系,总结了评估现状与局限,并指出了未来在拓扑感知威胁模型、去中心化隐私定义、抗操纵激励机制及目标模型界定等方向的研究重点。
该论文通过利用多维随机子集和问题在随机依赖情形下的最新进展,首次证明了在多项式过参数化的卷积神经网络中存在能够近似任意较小网络的“结构化强彩票票”,从而为结构化剪枝场景下的强彩票票假设提供了首个次指数级上界。
该论文提出了一种名为“可证明过滤器”的新方法,通过构建同配与异配图并设计低通与高通滤波器来同时捕捉同质与异质结构信息,从而有效解决了现有图聚类方法难以适应真实世界复杂图结构的难题。
该论文提出了一种结合坐标发现与流图学习的深度学习框架,通过构建精确的时间步进方法,在显著降低计算成本的同时实现了多尺度系统(如 Fitzhugh-Nagumo 神经元模型和 Kuramoto-Sivashinsky 方程)的高效高精度模拟。
该论文提出了首个可扩展的稀疏变分 Student-t 过程(SVTP)框架,通过引入两种新型推理算法及基于 Beta 函数的自然梯度优化方法,在保持大规模数据计算效率的同时,显著提升了模型对异常值和重尾分布的鲁棒性,在预测精度和收敛速度上均优于稀疏高斯过程。
本文提出了 HYGENE,这是一种基于扩散模型的超图生成方法,它通过在超图二分表示上采用渐进式局部扩展策略,首次利用深度学习成功实现了能够生成具有真实多样性的复杂超图。
该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架,通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径,从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题,实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。
该论文提出了 ARLBench,这是一个专为强化学习超参数优化设计的高效且灵活的基准测试框架,它通过精选代表性任务子集大幅降低了计算成本,从而促进了不同自动强化学习方法之间的公平比较与广泛研究。
本文提出了利用特权信息(如特征标签或注意力标签)进行辅助监督的 DRUPI 方法,通过合成额外信息来增强数据集压缩效果,并在多个基准数据集上显著提升了模型性能。
本文提出了一种完全无监督的表示学习方法,通过将潜在变量的概率流模型分解为稀疏激活的旋转场和势场,从而学习出由独立变换基元构成的解耦表示,并在序列变换数据集上实现了领先的数据似然度和近似等变性误差表现。
该论文提出了一种基于控制障碍函数和可微优化的数据驱动方法,通过量化智能体为安全交互而调整自身行为的意愿(即责任分配),从数据中学习并解释多智能体交互中的安全规范。
本文综述了机器学习在数值卡拉比 - 丘度量中的应用,并提出了一种结合唐纳森算法与在格拉斯曼流形上执行梯度下降的新方法,通过寻找高效截面子空间来计算里奇平坦近似,并在德沃克族三维流形上验证了该方法并观察到模参数变化时非平凡局部极小值的出现。
本文提出自适应重要性采样和分层子采样两种估计器,在高维稀疏回归中有效应对重尾噪声、-污染及-混合依赖性,填补了理论与算法间的空白,实现了最小化最优收敛率并提供了有效的坐标置信区间。
该论文提出了一种名为 SMPNN 的新型可扩展图神经网络架构,通过将标准卷积消息传递机制集成到预归一化 Transformer 块中替代注意力机制,不仅克服了传统图神经网络因过平滑而难以构建深层网络的局限,还在无需计算昂贵的注意力机制的情况下,在大规模图表示学习任务中实现了与最先进模型相当甚至更优的性能。
本文针对脑电信号中无标签目标域适应面临的标签分布偏移挑战,提出了一种基于信息最大化原则的参数高效流形优化策略 SPDIM,通过引入新颖的生成模型并修正传统黎曼统计对齐方法的局限性,在睡眠分期等实际场景中显著提升了泛化性能。
该论文提出了一种基于无监督学习的双阶段框架,利用未标记的故障数据联合识别深空栖息地中的潜在故障模式并筛选关键传感器,从而在缺乏先验知识的情况下实现更准确的剩余寿命预测。
本文提出了一种名为 MS-HGNN 的形态对称等变异质图神经网络,通过将机器人运动学结构与形态对称性作为约束嵌入架构,实现了在多种多体动力学系统(包括四足机器人)中高效且泛化能力强的动力学学习。
该论文提出了一种基于可操作 3D 关系对象图的移动机器人探索系统,通过编码多样化的物体关系并实现主动交互,有效克服了现有方法在大规模移动探索空间中的局限性,并在泛化性和性能上超越了仅依赖视觉语言模型的方法。
该研究通过在 132 个数据集上的实验证明,基于简单分子指纹的轻量级模型在肽功能预测任务中表现优于复杂的图神经网络和 Transformer 模型,从而挑战了必须建模长程相互作用才能准确预测肽性质的传统假设。