ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling
本文提出了 ShIOEnv,这是一个基于 Gymnasium 的 Bash 环境,通过语法约束合成和自监督不可约性信号来捕捉系统相关的执行行为,并发布了 210 万条输入输出对,显著提升了模型对用户命令执行行为的建模精度。
11971 篇论文
本文提出了 ShIOEnv,这是一个基于 Gymnasium 的 Bash 环境,通过语法约束合成和自监督不可约性信号来捕捉系统相关的执行行为,并发布了 210 万条输入输出对,显著提升了模型对用户命令执行行为的建模精度。
本文提出了 VTool-R1 框架,通过强化学习微调使视觉语言模型能够结合 Python 视觉编辑工具,在无需过程监督的情况下自主生成包含中间视觉步骤的多模态思维链,从而显著提升其在图表和表格等结构化视觉问答任务中的推理能力。
本文提出了一种针对满足特定集中性和边界条件的分布,能够在常数恶意噪声率下利用多项式样本高效学习稀疏半空间的属性高效 PAC 学习算法,其核心创新在于通过简单的铰链损失最小化变体及新的稀疏约束梯度分析实现了这一目标。
该论文提出了一种基于多核布尔参数的新型框架,首次实现了大语言模型在布尔域内的直接微调,从而在消除全精度潜在权重依赖的同时,显著降低了复杂度并提升了性能。
该论文提出了一种基于连续值令牌(CoT2)的链式思维新范式,通过理论证明其能实现多轨迹并行推理,并设计了相应的监督策略与采样算法,在组合推理任务中显著提升了模型的效率与性能。
本文提出了名为 SealQA 的新基准,旨在评估搜索增强型语言模型在应对网络搜索冲突、噪声及长文档干扰时的推理能力,并揭示了当前前沿模型(包括 o3 等)在此类高难度事实性问答任务中表现普遍不佳且增加推理计算量难以带来显著提升的局限性。
本文遵循 PRISMA 2020 指南,系统综述了 68 项将机器学习模型部署于 FPGA 以应对地球观测任务中实时处理与带宽挑战的研究,并提出了涵盖高效模型架构与 FPGA 实现策略的双重分类体系。
本文提出了名为 Poly2Graph 的高效开源工具,构建了包含 1700 万张空间多重图的 HSG-12M 数据集,首次将非厄米晶体能谱自动转化为几何图数据,填补了现有图基准缺乏空间几何信息的空白,并为凝聚态物理的数据驱动发现及几何感知图学习开辟了新途径。
本文提出了基于日本十年财报构建的开源基准 EDINET-Bench,用于评估大语言模型在欺诈检测等复杂金融任务上的表现,研究发现当前最先进的模型在该领域仅略优于传统逻辑回归,表明单纯提供报告文本不足以解决问题,亟需引入更贴近专业场景的推理支持框架。
该论文提出了 SPEED-RL 方法,通过自适应在线课程学习动态筛选中等难度的提示词进行强化训练,在无需人工调优的情况下将推理模型的训练速度提升了 2 至 6 倍,同时保持了模型精度。
本文针对现有图生成模型因独立插值导致路径不光滑的问题,提出了一种基于 Bures-Wasserstein 流匹配的 BWFlow 框架,通过马尔可夫随机场建模节点与边的联合演化,构建了平滑的概率路径,从而显著提升了训练收敛性、采样效率及生成性能。
本文提出了名为 ExSUL 的新型在线学习框架,通过引入将后悔值转化为 FDR 界的新引理及利用选择性生成结构解锁部分反馈的策略,在仅获知部分对抗性反馈的非平稳环境中,实现了大语言模型可靠生成时的 FDR 可控与高效学习。
本文提出了一种名为 SKANODE 的框架,通过结合结构化状态空间建模与 Kolmogorov-Arnold 网络,在神经微分方程架构中实现了从观测数据到可解释物理潜变量的虚拟感知及非线性动力学控制方程的符号发现,并在多个基准和真实案例中展现出优于传统方法的预测精度与可解释性。
本文提出了首个基于狄拉克结构的预辛化网络(PSNs)框架,通过将受约束耗散系统嵌入高维流形来恢复非退化辛几何,从而在保持能量、动量及约束满足的同时,实现了对如 ANYmal 四足机器人等复杂多体系统动力学的高效学习与预测。
本文通过在 Mujoco 环境中对 PPO 智能体施加内部参数扰动与外部对抗攻击,利用突触滤波方法将网络参数分类为脆弱、鲁棒或反脆弱,从而揭示了增强策略适应性的反脆弱参数并提出了改进 RL 系统鲁棒性的新途径。
本文提出了 MuRating 框架,通过将英语高质量数据评分信号迁移至 17 种目标语言,构建了一个可扩展的多语言数据选择方法,显著提升了多语言大语言模型在英语及多语言基准测试(尤其是知识密集型任务)上的表现。
本文提出了名为 Overtone 的统一解决方案,通过引入 CSM 和 CKM 模块在推理阶段动态循环调制补丁大小,有效缓解了基于 Transformer 的 PDE 代理模型中固定补丁导致的谐波误差累积问题,并实现了计算成本与精度的灵活权衡。
本文利用稀疏网格有限元和位提取技术,证明了具有 混合导数的 Korobov 函数在 ReLU 神经网络下可获得关于网络宽度和深度的近乎最优的超逼近误差界,从而显著改善了经典误差界并表明神经网络的表达能力在很大程度上不受维度灾难的影响。
本文提出了一种基于核函数的最大因果熵逆强化学习方法,用于在无限时域平稳平均场博弈中从专家演示推断非线性奖励函数,并通过证明对数似然目标的平滑性建立了理论一致性,同时在有限时域非平稳设定下提出了基于凸对偶的替代算法,显著提升了复杂场景下的策略恢复精度。
本文提出了 EDA 框架,通过统一任意噪声扩散模型的理论设计空间,在保持模块化且无额外计算开销的前提下,有效解决了 EDM 强制注入高斯噪声对图像恢复任务造成的负面影响,并在多种医学与自然图像恢复任务中展现出卓越的泛化能力。