HTMuon: Improving Muon via Heavy-Tailed Spectral Correction
本文提出 HTMuon 算法,通过引入重尾谱校正机制解决 Muon 优化器过度抑制重尾权重谱的问题,在 LLM 预训练和图像分类任务中显著提升了性能并提供了相应的理论收敛保证。
2385 篇论文
本文提出 HTMuon 算法,通过引入重尾谱校正机制解决 Muon 优化器过度抑制重尾权重谱的问题,在 LLM 预训练和图像分类任务中显著提升了性能并提供了相应的理论收敛保证。
本文提出了名为 ADVERSA 的自动化红队框架,通过连续轨迹而非二元结果来衡量大语言模型在多轮对抗交互中安全护栏的退化动态,并揭示了在前沿模型测试中越狱攻击主要集中在早期轮次、且评估结果高度依赖裁判可靠性等关键发现。
该研究首次将稀疏自编码器应用于时间序列基础模型 Chronos-T5,通过因果特征消融实验揭示了其内部存在从低频特征到关键突变检测的层级结构,并发现模型预测性能的核心驱动力并非最终层的语义丰富表征,而是中间层中负责检测突变动态的因果特征。
该研究通过对 Vul4J 基准中 319 个 LLM 生成的 Java 安全补丁进行多维度分析,发现尽管大语言模型在保持功能方面表现尚可,但因语义误解导致其安全修复成功率极低(仅 24.8%),并提出了安全修复分数(SRS)来量化这一差距,强调在部署前必须进行严格验证。
该论文构建了一个最小化任务来研究神经网络的条件学习,发现模型会先学习边际分布并陷入由歧义度决定的损失平台期,随后在梯度噪声和内部路由机制的驱动下发生相变,最终习得完整的条件分布。
本文提出了 TASER 框架,这是首个利用梯度谱能量集中特性而非复杂异常检测来防御无人机群去中心化联邦学习中隐蔽后门攻击的高效方案,通过保留主任务频率系数并抑制后门任务,在无需全局协调的情况下显著降低了攻击成功率并保持了模型精度。
该论文提出了一种名为"Amnesia"的轻量级激活空间对抗攻击方法,通过操纵开放权重大语言模型的内部 Transformer 状态,无需微调即可绕过现有安全机制并诱导其生成有害内容,从而凸显了当前模型安全防护的不足及加强研究的紧迫性。
该论文提出了多级别概念拆分(MLCS)和深度层级概念嵌入模型(Deep-HiCEMs),旨在仅利用顶层监督信号自动发现多层级概念层次结构,从而在保持高准确率的同时支持多层次的概念干预并提升模型性能。
KernelSkill 是一个采用双层级记忆架构的多智能体框架,通过利用知识驱动且感知任务轨迹的专家优化技能替代传统大模型中的隐式启发式方法,显著提升了 GPU 内核的生成效率与可解释性,并在 KernelBench 基准测试中实现了远超现有基线的加速效果。
本文提出了 ES-dLLM,一种无需训练的扩散大语言模型推理加速框架,它通过利用中间表示的细微变化动态跳过早期层中的低重要性 token,在保持生成质量的同时实现了高达 16.8 倍的推理速度提升。
该论文提出了一种名为“多流扰动攻击”的新方法,通过在同一提示中交织多个任务流来干扰大语言模型的思维过程,从而在多个主流模型上实现了高成功率的安全越狱,并导致模型出现思维崩溃或输出重复等异常现象。
本文针对 OpenClaw 风格智能体与技能市场结合带来的执行层安全风险,提出了“生存感知执行(SAE)”中间件标准,通过强制实施暴露预算、冷却限制等不可绕过的最后英里不变量,在离线回测中显著降低了最大回撤与风险指标,从而将智能体交易的安全重心从“答案正确性”转向“执行生存性”。
本文提出了一种名为等变异步扩散(EAD)的新型模型,通过引入自适应的动态去噪调度机制,有效结合了异步自回归与同步扩散模型的优势,从而在捕捉分子层级因果关系的同时实现了分子级生成视野,显著提升了三维分子构象生成的性能。
该论文提出了代码空间响应 oracle(CSRO)框架,通过利用大语言模型将多智能体策略生成重构为代码生成任务,从而在保持与基线相当性能的同时,解决了传统强化学习方法中策略不可解释的问题,并实现了可解释、多样化且具备人类智能特征的策略合成。
该论文提出了一种基于最高有效位(MSB)代理的“软稀疏”范式,通过将其集成到自定义 RISC-V 指令中,在保持零精度损失的前提下显著减少了卷积神经网络中的乘加操作并降低了功耗,从而有效克服了传统硬稀疏性在深层网络或平滑激活函数场景下的局限性。
CLIPO 通过将对比学习机制引入策略优化,解决了传统 RLVR 仅依赖最终答案而忽视中间步骤正确性所导致的幻觉与泛化问题,从而显著提升了大语言模型在推理任务中的鲁棒性与泛化能力。
该论文提出“中间迷失”现象是因果解码器在初始化阶段即存在的固有几何属性,源于残差连接与因果掩码共同作用导致的梯度影响分布,表现为首尾信息优势与中间区域的结构化训练敌对,且这一偏差在未经训练的模型中已显现并随标准预训练持续存在。
该论文提出了一种名为 AR-VLA 的独立自回归动作专家模型,它通过长程记忆机制和重锚定技术解决了感知与控制的频率失配问题,实现了具备时空一致性和历史感知能力的平滑动作生成,从而在机器人任务中超越了传统反应式 VLA 模型的性能。
该论文提出了一种通过专用 AI 代理在持续优化循环中自动改进数据产品的系统,该系统通过挖掘问题、监控多维质量指标并支持人机协同控制,将数据转化为可观测且可优化的资产,从而在自动化与信任监管之间取得平衡。
本文首次将形式语言理论中生成与识别的不对称性统一为一个包含计算复杂度、歧义性、方向性、信息可用性、语法推断和时间性六个维度的多维现象,并指出这种不对称性源于识别始终受限于给定输入而生成未必受限,进而探讨了其在自然语言处理及大语言模型中的意义。