FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels
本文提出了名为 FATE 的新基准系列(包含 FATE-H 和 FATE-X),旨在填补大型语言模型在竞赛数学与研究级抽象代数形式化证明之间的能力鸿沟,评估结果显示当前最先进模型在该领域表现极差,且其将自然语言推理转化为形式化证明的能力远弱于推理本身。
6677 篇论文
本文提出了名为 FATE 的新基准系列(包含 FATE-H 和 FATE-X),旨在填补大型语言模型在竞赛数学与研究级抽象代数形式化证明之间的能力鸿沟,评估结果显示当前最先进模型在该领域表现极差,且其将自然语言推理转化为形式化证明的能力远弱于推理本身。
本文介绍了名为"Jr. AI Scientist"的先进自主 AI 科研系统,该系统通过模拟初级研究者的完整工作流程,在基准论文基础上成功生成并验证了具有科学价值的新算法与论文,同时深入评估了其性能优势、当前局限性及潜在风险,为理解 AI 驱动科学探索的现状与未来挑战提供了重要见解。
该论文提出了一种分布鲁棒自步课程强化学习方法(DR-SPCRL),通过将鲁棒性预算作为自适应课程来动态调整,有效解决了固定预算下性能与鲁棒性之间的权衡难题,在多种环境中显著提升了训练稳定性及抗扰动性能。
该论文提出了一种基于分数阶神经扩散网络的自适应多视图图对比学习框架,通过将分数阶导数作为可学习参数来自动生成从局部到全局的连续视图谱,从而在无需人工数据增强的情况下提升了节点和图表示的鲁棒性与表达力。
该论文提出了一种利用非体积保持(NVP)变换来修正条件变分自编码器(CVAE)中潜在空间条件分布假设的方法,通过引入可学习的方差参数,显著提升了图像生成的多样性与质量,使 FID 降低了 4% 且对数似然度提高了 7.6%。
该论文提出了一种针对攻击的凸包精确线性界传播方法,通过利用球凸包与特定多面体体积高度近似这一特性,显著提升了现有鲁棒性验证器在最具挑战性基准上的效率(平均加速 3.16 倍)。
本文提出了一种名为“角度梯度符号法”的新型对抗攻击策略,该方法通过利用双曲空间的几何特性,仅沿切空间中的角度(语义)方向施加扰动,从而在图像分类和跨模态检索等任务中实现了比传统方法更高的攻击成功率,并揭示了双曲嵌入的深层脆弱性。
本文针对 SmoothLLM 防御机制中过于严格的"k-不稳定”假设,提出了一种更贴合实际的"(k, )-不稳定”概率框架,通过结合攻击成功的经验模型推导出新的防御概率下界,从而为抵御各类越狱攻击提供了更可信且实用的安全认证保障。
该论文提出了一种自动化流水线,用于生成基于“登门槛”心理原理的大规模多轮对话越狱数据集,并通过评估发现不同大模型家族在应对多轮上下文攻击时存在显著的安全差异,其中 GPT 系列模型对对话历史尤为脆弱,而 Gemini 2.5 Flash 则表现出极强的抵抗力。
该论文提出了一种名为“捷径不变性”的潜在空间正则化方法,通过在解耦潜在空间中识别捷径对齐轴并注入各向异性噪声来实施定向雅可比正则化,从而在不依赖捷径标签或冲突样本的情况下,有效抑制捷径学习并提升模型的分布外泛化能力。
该论文通过举办 Kaggle 竞赛将子网格机器学习参数化问题开放给更广泛的社区,并验证了基于获胜团队架构的混合物理 - 机器学习气候模型在包含完整云微物理的真实地理环境中实现了可复现的在线稳定性,证明了众包解决离线问题是提升混合气候模拟在线性能的有效途径。
本文提出了 CRAwDAD 框架,通过让两个推理语言模型在因果推断任务中进行结构化辩论与相互说服,显著提升了包括 DeepSeek-R1 和 Qwen3 在内的模型在 CLadder 基准测试中的准确率,特别是大幅改善了反事实推理的表现。
该研究提出了名为 ForamDeepSlice 的高精度深度学习框架,通过构建严谨的 2D 微 CT 切片数据集并采用集成卷积神经网络模型,实现了 95.64% 的有孔虫物种分类准确率,同时开发了支持实时分类与三维匹配的交互式仪表盘,为微古生物学鉴定建立了新基准。
本文提出了 AltNet 方法,通过利用双网络交替角色机制,在周期性重置网络参数以恢复强化学习可塑性的同时,避免了性能下降,从而在安全关键的高维控制任务中实现了更高效的训练和更优的表现。
本文提出了多尺度 Patch Transformer(MSPT)架构,通过结合球树划分的局部点注意力与全局 Patch 级注意力,实现了在单 GPU 上对百万级空间元素的高效物理建模,并在多种大规模物理仿真任务中取得了优于现有方法的精度与更低的计算成本。
该论文提出了一种名为“双重随机平滑”的新框架,通过引入输入依赖的噪声方差估计器并证明其有效性,成功突破了传统全局噪声方差在兼顾小半径和大半径鲁棒性认证时的性能瓶颈,显著提升了模型在不同扰动半径下的准确率。
该论文针对跨域离线强化学习中忽视测试时鲁棒性的问题,提出了名为 DROCO 的新算法,通过引入鲁棒跨域贝尔曼算子、动态值惩罚和 Huber 损失,有效实现了同时应对训练时和测试时动力学偏移的双重鲁棒性。
本文提出了 GoRL 框架,通过将策略优化限制在可处理的潜在空间并将动作生成委托给条件生成解码器,成功解决了在线强化学习中生成式策略在优化稳定性与表达力之间的权衡难题,从而在连续控制任务中实现了显著的性能提升。
本文提出了稀疏各向同性 Shapley 回归(SISR)框架,通过联合学习单调变换以恢复可加性并施加 L0 稀疏约束,有效解决了传统 Shapley 值在处理非线性依赖和特征选择时的失真与计算效率问题,为高维非线性可解释性提供了理论坚实且实用的解决方案。
该论文提出了一种结合规则化口罩形变与无配对图像翻译生成对抗网络的两步数据增强框架,旨在利用极少量训练数据生成高质量口罩人脸样本以解决相关任务数据匮乏问题,并坦诚说明了其受限于资源约束、未完成下游定量评估及非 AI 辅助生成的背景。