Manifold Generalization Provably Proceeds Memorization in Diffusion Models
该论文证明,在流形假设下,扩散模型利用粗粒度分数捕捉数据几何结构而非完整分布,从而在数据密度不规则时,能够以比估计完整总体分布更快的统计速率实现泛化(即生成新颖且高保真的样本)。
13082 篇论文
该论文证明,在流形假设下,扩散模型利用粗粒度分数捕捉数据几何结构而非完整分布,从而在数据密度不规则时,能够以比估计完整总体分布更快的统计速率实现泛化(即生成新颖且高保真的样本)。
该研究提出利用稀疏自编码器(SAEs)将医学影像基础模型中不透明的潜在表示转化为人类可解释的稀疏特征,通过高保真重构、语义保持及大语言模型自动解释,实现了临床语言与抽象视觉表示之间的零-shot 桥接,从而推动了可解释、概念驱动的医学视觉系统的发展。
该论文提出了一种结合大语言模型(LLM)统计估计与环境地图旅行成本的新型模型规划框架,并辅以离线回放机制实现的快速提示与模型选择方法,在部分已知环境中的物体搜索任务中显著优于纯 LLM 规划、乐观策略及传统 UCB 选择基线。
本文首次证明了神经回归坍缩(NRC)现象不仅存在于回归模型的最后一层,也广泛存在于深层网络中,揭示了特征子空间与目标维度对齐、协方差匹配以及权重输入子空间对齐等深层结构特性,并阐明了模型学习低秩目标内在维度的机制及权重衰减的必要性。
该论文通过提出一种名为“扰动”的简单高效方法,将语言模型中的表征重新定义为学习通道而非激活模式,即通过微调单个对抗样本并观察其对其他样本的“感染”效应,从而在不依赖几何假设的情况下揭示了训练有素的模型中多层次的语言结构迁移与抽象习得。
该论文提出了一种名为 CLIQ 的聚类指令查询框架,通过实验证明量化技术无法有效防止边缘部署的大语言模型遭受基于查询的知识提取攻击,揭示了其在严格计算约束下仍面临显著的安全风险。
该论文从电路复杂度视角分析了分层知识追踪,证明了在单调性限制下递归多数传播任务对对数精度 Transformer 构成了无条件障碍,并发现仅靠显式结构无法避免捷径学习,而辅助监督中间子树可显著提升模型在深层层级上的表现。
本文从稀疏信号处理的视角出发,阐述了近期发现的 ReLU 神经网络损失函数中的隐藏凸性及其与传统信号处理模型的关联,旨在为深度学习的训练与理论理解提供新的数学视角并促进跨领域应用。
该论文针对深度非参数 Cox 模型中梯度优化误差传播、点态偏差控制及集成不确定性量化等理论缺口,建立了渐近分布理论,通过构建结构化参数化与子采样集成估计量证明了点态及多元渐近正态性,并推导了适用于相对风险对比的解析协方差估计与有效推断方法。