Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy
该论文提出了一种无需训练、基于朗之万动力学的随机注意力机制,通过调节温度参数在精确检索与开放生成之间灵活切换,在保持多样性和新颖性方面显著优于传统学习基线,且无需修改现有架构即可应用于检索增强生成和上下文学习。
12775 篇论文
该论文提出了一种无需训练、基于朗之万动力学的随机注意力机制,通过调节温度参数在精确检索与开放生成之间灵活切换,在保持多样性和新颖性方面显著优于传统学习基线,且无需修改现有架构即可应用于检索增强生成和上下文学习。
该研究提出了一种基于物理信息神经算子(PINO)的人工智能代理模型,通过嵌入物理原理,将铁电垂直 NAND 器件的阈值电压漂移和保持特性模拟速度提升了超过 10000 倍,从而克服了传统 TCAD 工具在大规模参数优化中计算成本过高的问题。
本文提出了一种名为 SPC 的单次遍历可能性聚类算法,该算法利用阻尼窗口和协方差并集技术有效处理流数据中的非球形簇,并在聚类纯度与归一化互信息指标上优于现有方法。
该论文提出了一种受工业设计启发的新型数据增强范式,通过提示大语言模型结合参考曲面与建模流程生成 CAD 程序,有效提升了生成模型的几何多样性及与工业级设计的相似度。
该论文通过统一的贝叶斯框架分析表明,在属性感知场景下公平性约束能改善弱势群体结果,但在属性盲场景下,公平性可能导致“向下拉平”现象,使一个或两个群体的结果同时恶化。
本文提出了 XGenBoost,一种基于 XGBoost 的生成模型框架,通过结合去噪扩散隐式模型与分层自回归模型,分别针对小规模和大规模混合类型表格数据实现了优于现有神经及树基模型且训练成本更低的合成效果。
本文提出了 DySECT(动态自演进提取与整理工具包),这是一个通过构建自扩展知识库并利用图推理与概率知识不断反哺大语言模型,从而在结构化信息提取任务中实现“提取优化知识、知识反哺提取”的闭环自演进系统。
本文提出了一种名为 CN-CBF 的复合神经控制障碍函数方法,通过结合基于哈密顿 - 雅可比可达性框架训练的单个障碍函数与残差神经网络架构,实现了在动态环境中安全且高效的机器人导航,并在仿真与硬件实验中显著提升了任务成功率。
本文提出了名为 NerVE 的统一特征谱动力学框架,通过四种轻量级指标深入解析大语言模型前馈网络(FFN)中非线性激活与优化器几何结构如何协同调控高维潜在空间的信息流与特征分布,从而为超越试错法的架构与优化器选择提供可解释的洞察。
该论文提出了 Switch Mamba(Swimba)方法,通过在参数空间混合专家而非复制状态轨迹,实现了状态空间模型(SSM)的专家化扩展,从而在保持主导递归计算成本不变的前提下提升了模型容量。
本文提出了一种基于物理一致性的神经网络方法,结合有限元法求解具有微结构的 Cosserat 弹性体平衡构型,并通过推导准凸性、秩一凸性及 Legendre-Hadamard 不等式等稳定性判据,构建了一套能够验证神经网络预测解能量稳定性的物理约束框架。
该论文针对传统马尔可夫决策过程无法描述多动作反事实结果联合分布的局限,提出了联合马尔可夫决策过程(JMDP)这一新形式化框架,通过引入多动作采样转移模型来刻画耦合动力学环境,并推导了相应的贝尔曼算子及具有收敛保证的动态规划与增量算法。
该研究揭示了 DNA 基础模型生成的嵌入表示(尤其是 per-token 嵌入)存在严重隐私风险,攻击者可通过模型反演攻击近乎完美地重建原始基因组序列,从而表明在嵌入即服务(EaaS)框架广泛部署前亟需加强隐私保护设计。
该论文通过构建系统性实验框架,首次全面评估了图稀疏化在大规模图神经网络流水线中的应用,发现其不仅能显著加速训练与推理过程(如在 Products 图上实现 11.7 倍加速),还能在极小精度损失甚至提升模型性能的同时有效缓解数据移动瓶颈。
该论文研究了基于策略梯度的后训练方法,证明了在基础模型具备非平凡似然时,该方法能以最优样本复杂度提升性能,但指出仅使用结果奖励会因基础模型支持集限制而遭遇指数级查询复杂度障碍,而引入过程奖励模型则能通过依赖令牌级似然分位数有效克服这一维度灾难。
本文提出了名为 Chart-RL 的强化学习方法,通过引入数学可验证奖励机制,显著提升了视觉语言模型在图表问答任务中的泛化能力与推理性能,并证明训练数据的任务复杂度比数据数量更为关键。
该论文通过理论分析揭示了四足机器人模仿学习在小样本下的有效性,并提出了一种新方法,仅需数秒演示即可离线训练出具备合理鲁棒性的行走策略。
本文提出了一种基于 SISA(分片、隔离、切片和聚合)的机器遗忘框架,用于解决电力变压器匝间短路故障定位中因传感器故障导致训练数据中毒的问题,该方法通过仅重训受影响的分片模型,在保持与全量重训相当诊断精度的同时显著降低了重训时间。
该研究提出了一种融合拓扑数据分析(特别是持久同调)的图强化学习框架,用于提升配电网在极端事件下的韧性,实验表明该方法能显著优化网络重构与负荷削减策略,从而在增加电力供应的同时减少电压越限并提升系统自愈能力。
本文提出了条件非平衡最优传输(CUOT)框架,通过引入 Csiszár 散度惩罚来缓解条件分布匹配中的硬约束,从而构建出一种对异常值具有鲁棒性且能保持高采样效率的条件生成模型 CUOTM。