Memorization capacity of deep ReLU neural networks characterized by width and depth
该论文通过构建并证明下界,确立了深度 ReLU 神经网络在记忆个数据点时,其宽度与深度需满足的最优权衡关系。
4941 篇论文
该论文通过构建并证明下界,确立了深度 ReLU 神经网络在记忆个数据点时,其宽度与深度需满足的最优权衡关系。
本文提出了一种基于 MM 算法的统一框架,用于在 Tweedie 和负二项分布等更广泛的噪声假设下推导传统及凸非负矩阵分解(NMF)的乘性更新规则,并通过实证研究验证了该框架在处理过离散数据及大规模类别场景下的优越性。
本文提出了一种名为 BrainHO 的脑网络层次组织学习方法,通过设计分层注意力机制和正交约束策略,突破传统预定义子网络的局限,直接从内在特征中学习脑网络依赖关系,从而在自闭症和抑郁症等脑疾病诊断中实现了最先进的分类性能并发现了可解释的生物学标志物。
本文提出了名为 SparseLoom 的演示系统,通过无需重训练的模型拼接技术从稀疏模型中生成变体,从而在边缘 SoC 上实现多 DNN 推理,显著降低了服务等级目标违规率并提升了吞吐量与内存效率。
这篇综述系统分析了光子量子机器学习系统中的噪声来源及其对性能的影响,探讨了相关算法与噪声表征技术,并总结了噪声缓解策略与未来研究方向。
该论文提出了一种基于条件生成对抗网络(cGAN)的框架,利用测井数据中的孔隙度信息,从稀疏的岩石薄片数据中合成连续的碳酸盐岩孔隙尺度图像,从而有效填补了储层表征中的深度间隙并支持碳捕获与地下储氢等应用。
该论文提出了 FreqCycle 及其分层扩展 MFreqCycle 框架,通过结合时域滤波增强循环预测与频域分段模式学习,有效挖掘了被忽视的中高频特征并解耦多周期耦合,从而在多个基准测试中实现了兼具高精度与高效率的时间序列预测。
该论文通过引入可控偏差的评估框架,实证分析了标签偏差和选择偏差对分类模型评估、性能及去偏方法有效性的差异化影响,揭示了在无偏测试集下公平性与准确性之间不存在权衡,并强调了针对特定偏差类型优化评估与缓解策略的重要性。
该论文提出了一个用于图神经网络时间序列异常检测的开源框架,通过系统性评估揭示了 GNN 在提升检测性能与可解释性方面的优势,并批判性地反思了当前领域在指标设计与阈值策略上的局限性。
该论文提出了 EsoLang-Bench 基准,通过利用缺乏预训练数据且难以被“刷分”的极简主义编程语言,揭示了大型语言模型在标准代码生成任务中表现优异实则依赖记忆,而在需要真正推理能力的任务中表现极差,从而证明现有模型缺乏真正的泛化推理能力。
该论文通过实证研究揭示了低秩分解参数高效微调中的灾难性遗忘现象主要受更新子空间的几何结构与参数化方式影响,并指出张量分解和结构对齐参数化方法能有效缓解遗忘,为连续学习场景下的策略选择提供了实践指导。
该论文提出了 ActiveUltraFeedback,一种利用主动学习动态筛选高信息量样本以生成偏好数据的模块化流程,通过引入 DRTS 和 DeltaUCB 等新颖方法,仅用六分之一的标注数据即可实现与静态基线相当甚至更优的大语言模型对齐效果。
本文提出了一种名为 PF-PINO 的物理信息神经算子框架,通过将相场控制方程的残差嵌入损失函数来强制物理约束,从而在精度、泛化能力和长期稳定性上显著优于传统傅里叶神经算子,为复杂界面演化问题的高效预测提供了鲁棒的计算工具。
本文提出了名为 Mousse 的新型优化器,它通过结合 Shampoo 的曲率感知预条件技术与 Muon 的谱优化方法,在黎曼流形上实现了各向异性的信任区域约束,从而在几乎不增加计算开销的情况下显著提升了语言模型的训练效率。
本文针对 AI-RAN 赋能的多接入边缘计算系统中联邦学习面临的非独立同分布数据挑战,提出了一种通过引入条件层次凝聚聚类与原型对齐机制的多原型引导联邦知识蒸馏(MP-FedKD)方法,有效克服了单原型策略的信息丢失问题并显著提升了模型精度。
本文针对基于二阶常微分方程的神经振荡器,利用 Rademacher 复杂度框架推导了其泛化误差上界,证明了误差随网络规模和时长呈多项式增长且可通过正则化约束提升泛化能力,并通过 Bouc-Wen 非线性系统的数值实验验证了理论结果。
该论文建立了基于分段线性路径离散时间签名的全局通用逼近定理,证明了在满足特定可积性条件下,其线性泛函在及加权范数下具有稠密性,并据此推导出了布朗运动驱动的路径依赖泛函、随机常微分方程及随机微分方程的逼近结果。
该论文指出可解释人工智能(XAI)领域长期忽视了神经元对“缺失概念”的编码现象,并提出扩展归因和特征可视化方法以有效揭示此类机制,从而提升模型解释性与去偏效果。
本文提出了一种结合长短期记忆网络(LSTM)与量子电路 Born 机器(QCBM)的混合量子 - 经典框架,通过利用 QCBM 作为高质量先验分布来增强 LSTM 的特征提取能力,从而在上证综指和沪深 300 指数的高频数据上显著提升了金融波动率预测的精度。
该论文提出了一种名为 ACP-SL 的自适应通道剪枝方案,通过设计标签感知通道重要性评分模块来识别并剪除不重要的通道,从而压缩分裂学习中的中间特征传输数据,在降低通信开销的同时提升了测试准确率并减少了训练轮次。