Marginals Before Conditionals
该论文构建了一个最小化任务来研究神经网络的条件学习,发现模型会先学习边际分布并陷入由歧义度决定的损失平台期,随后在梯度噪声和内部路由机制的驱动下发生相变,最终习得完整的条件分布。
2315 篇论文
该论文构建了一个最小化任务来研究神经网络的条件学习,发现模型会先学习边际分布并陷入由歧义度决定的损失平台期,随后在梯度噪声和内部路由机制的驱动下发生相变,最终习得完整的条件分布。
本文提出了一种参数化哈密顿量并强制满足互连矩阵斜对称性与耗散矩阵半正定性的随机端口哈密顿神经网络(SPH-NN),在理论上证明了其具备通用逼近能力与期望弱无源性,并在实验中对含噪振荡器系统实现了比传统多层感知机更优的长时程预测精度与能量守恒性能。
该论文通过分析 NTK 缩放下浅层全连接网络的 SGD 训练,建立了一个基于显式函数 的定量理论,用以界定“弹射阶段”中大 NTK 平坦化尖峰出现的概率条件,从而解释了为何在实际网络宽度下仍会观察到此类尖峰现象。
该论文提出了一种名为"Amnesia"的轻量级激活空间对抗攻击方法,通过操纵开放权重大语言模型的内部 Transformer 状态,无需微调即可绕过现有安全机制并诱导其生成有害内容,从而凸显了当前模型安全防护的不足及加强研究的紧迫性。
该论文提出了一种受经典傅里叶神经算子启发的多阶段残差学习框架,通过迭代训练量子模块以修正前序阶段的残差,有效缓解了量子模型在傅里叶参数化中难以学习多频率成分(尤其是高频或非主导频率)的偏差问题,显著提升了模型在复杂频谱任务中的表现。
该论文提出了多级别概念拆分(MLCS)和深度层级概念嵌入模型(Deep-HiCEMs),旨在仅利用顶层监督信号自动发现多层级概念层次结构,从而在保持高准确率的同时支持多层次的概念干预并提升模型性能。
KernelSkill 是一个采用双层级记忆架构的多智能体框架,通过利用知识驱动且感知任务轨迹的专家优化技能替代传统大模型中的隐式启发式方法,显著提升了 GPU 内核的生成效率与可解释性,并在 KernelBench 基准测试中实现了远超现有基线的加速效果。
本文提出了 ES-dLLM,一种无需训练的扩散大语言模型推理加速框架,它通过利用中间表示的细微变化动态跳过早期层中的低重要性 token,在保持生成质量的同时实现了高达 16.8 倍的推理速度提升。
这篇论文首次提出了“权重空间学习”(WSL)的统一分类体系,将现有方法归纳为权重空间理解、表示与生成三大核心维度,并阐述了其在模型检索、持续学习、神经架构搜索等实际应用中的价值。
本文提出了一种名为等变异步扩散(EAD)的新型模型,通过引入自适应的动态去噪调度机制,有效结合了异步自回归与同步扩散模型的优势,从而在捕捉分子层级因果关系的同时实现了分子级生成视野,显著提升了三维分子构象生成的性能。
该论文针对时间序列预测中的分布漂移问题,提出了一种名为 TS_Adam 的轻量级优化器变体,通过移除二阶偏差校正来增强模型对非平稳数据的适应性,从而在无需额外超参数的情况下显著降低了预测误差。
该论文提出了代码空间响应 oracle(CSRO)框架,通过利用大语言模型将多智能体策略生成重构为代码生成任务,从而在保持与基线相当性能的同时,解决了传统强化学习方法中策略不可解释的问题,并实现了可解释、多样化且具备人类智能特征的策略合成。
本文提出了名为 BlueDown 的新型后处理方法,通过利用层级结构设计的广义最小二乘回归算法及高效的线性代数运算,在满足美国人口普查局隐私保护和结构约束的前提下,显著提升了 2020 年人口普查数据在郡县和街区等层级上的估计准确性与一致性。
该论文提出了一种基于最高有效位(MSB)代理的“软稀疏”范式,通过将其集成到自定义 RISC-V 指令中,在保持零精度损失的前提下显著减少了卷积神经网络中的乘加操作并降低了功耗,从而有效克服了传统硬稀疏性在深层网络或平滑激活函数场景下的局限性。
CLIPO 通过将对比学习机制引入策略优化,解决了传统 RLVR 仅依赖最终答案而忽视中间步骤正确性所导致的幻觉与泛化问题,从而显著提升了大语言模型在推理任务中的鲁棒性与泛化能力。
该论文提出“中间迷失”现象是因果解码器在初始化阶段即存在的固有几何属性,源于残差连接与因果掩码共同作用导致的梯度影响分布,表现为首尾信息优势与中间区域的结构化训练敌对,且这一偏差在未经训练的模型中已显现并随标准预训练持续存在。
该论文提出了一种利用非平衡 Wasserstein 重心进行字典学习的方法,以克服现有基于 Wasserstein 空间的方法在平衡光谱分布时模糊类别并牺牲抗噪性的问题,从而实现更鲁棒的高光谱图像无监督聚类。
该论文提出了一种结合隐式数值格式的神经算子方法,仅需利用少量数据(如 7% 的带宽)即可训练模型以高精度(99.87%)预测线性单自由度系统的振动频率响应曲线,从而在不依赖物理正则化损失函数的情况下实现了对系统动力学规律的隐式学习并显著提升了工程振动研究的效率。
该论文提出了一种名为“混合学习(Mashup Learning)”的方法,通过识别并合并与目标任务最相关的历史检查点来优化模型初始化,从而在多个基准测试中显著提升了下游任务的准确率并大幅缩短了微调所需的训练时间和步数。
该论文针对现有混合 LoRA 模型中路由权重严重失衡导致有效 LoRA 数量受限的问题,提出了一种名为 ReMix 的新方法,通过引入不可学习的路由权重确保各 LoRA 平等激活,并利用基于 RLOO 技术的强化学习策略进行无偏梯度估计,从而在参数量相当的情况下显著提升了微调性能。