Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts
本文提出了涵盖多场景的 MSKernelBench 基准测试及多智能体硬件感知系统 CUDAMaster,旨在突破现有 LLM 仅优化机器学习算子的局限,实现了在科学计算等广泛领域内媲美甚至超越 cuBLAS 等闭源库的 CUDA 内核自动化优化。
12775 篇论文
本文提出了涵盖多场景的 MSKernelBench 基准测试及多智能体硬件感知系统 CUDAMaster,旨在突破现有 LLM 仅优化机器学习算子的局限,实现了在科学计算等广泛领域内媲美甚至超越 cuBLAS 等闭源库的 CUDA 内核自动化优化。
该论文提出了一种名为“塑造参数贡献模式”(SPCP)的方法,通过训练期间动态抑制过高的参数贡献,促使分类器学习更密集的边界导向型参数依赖模式,从而有效缓解深度模型因过度依赖少数主导参数而导致的分布外(OOD)检测过自信问题。
本文提出了一种双图时空图神经网络代理模型,通过耦合节点级运动学与单元级历史相关变量的双分支结构,高效且准确地预测了变加载位置下钢筋混凝土梁在四点弯曲工况下的非线性时程响应。
本文提出了名为 wDPO 的鲁棒大语言模型对齐方法,通过利用 DPO 训练中的隐式边际信号实施分层干预策略(针对硬噪声进行数据级稀疏修正,针对模糊比较进行梯度级软截断),从而有效区分并处理不同类型的偏好噪声,显著提升了模型在含噪数据下的对齐质量与鲁棒性。
该研究提出了一种基于 SonicGuard 可穿戴传感器和 Audio Spectrogram Transformer 模型的自动化肠音分割与分类系统,通过为健康人和患者分别训练专用模型,实现了高精度的肠音模式识别,显著减少了人工标注时间并为胃肠道功能提供了客观的定量评估工具。
该论文证明了在任意度量空间中,只要间隔足够大(),基于间隔的学习即可仅依赖三角不等式实现,并揭示了此类学习存在一个通用常数阈值,同时否定了其总能通过嵌入线性空间来解释的观点,进而建立了巴拿赫空间的可学习性分类及其样本复杂度与间隔参数的多项式关系。
该论文通过构建高质量思维链蒸馏数据集 ODA-Fin-SFT-318k 和难例可验证强化学习数据集 ODA-Fin-RL-12k,证明了在金融垂直领域,数据的质量与难度分布对模型性能起决定性作用,并据此训练出的 ODA-Fin-RL-8B 模型在多项基准测试中超越了同规模开源金融大模型。
LightMedSeg 提出了一种结合解剖先验与自适应上下文建模的模块化轻量级 3D 医学图像分割架构,通过引入锚点条件特征调制、局部结构先验及计算优化策略,在仅消耗极低参数量和计算量的情况下实现了与重型 Transformer 基线模型相当的分割精度。
该论文提出了一种基于深度条件变换模型(DCTM)和交叉拟合的改进型条件秩 - 秩回归方法,通过估计协变量调整后的条件秩来有效解决非线性、高阶交互及离散有序结果下的代际流动性测量难题,并建立了相应的渐近理论,在模拟与实证研究中均展现出优于传统方法的准确性与解释力。
该论文提出了 PT-RAG 框架,通过引入一种结合 GenePT 嵌入与 Gumbel-Softmax 采样的两阶段可微检索机制,实现了细胞类型感知的上下文检索,从而显著提升了基因扰动下细胞反应预测的准确性,并证明了在该领域可微检索对于避免性能下降至关重要。
该论文提出了名为 WeDas 的框架,通过引入查询 - 结果对齐评分和少样本探测机制,使智能体能够感知并适应网络内容的分布结构,从而有效弥合了深度推理与底层检索之间的差距,显著提升了多基准测试中的子目标完成度与准确性。
该研究针对肺癌幸存者二次原发癌症预测中本地数据受限及多源数据融合难题,提出了一种利用外部 SEER 数据并通过损失融合机制解决特征异构与隐私保护问题的水平联邦学习框架(LF2L),显著提升了模型的预测性能。
该论文提出了两种互补的符号预测器(SyNF 和 SyTF),能够从混沌时间序列数据中学习显式且可解释的代数方程,在保持与深度学习相当的短期预测精度的同时,克服了黑盒模型缺乏科学洞察力的局限。
该论文提出了一种结合多头注意力软随机森林预测患者爽约风险与多策略近端策略优化强化学习的自适应双预约框架,通过基于 KL 散度的新颖τ规则实现策略间知识迁移,从而动态优化门诊预约决策以平衡爽约、拥堵与等待时间等多重目标。
本文提出了变分流图(VFMs)框架,通过将条件生成问题转化为学习适配观测的初始噪声分布,实现了在单步前向传播中生成高质量且校准良好的条件样本,从而在解决逆问题时显著超越了传统迭代扩散模型的效率。
本文提出了一种基于 Vocos 的音频带宽扩展模型,该模型利用神经声码器骨干网络生成缺失的高频内容,并通过轻量级滤波器平滑融合,在 NVIDIA A100 GPU 和 CPU 上均实现了极低延迟的实时高质量音频增强。
该论文提出了一种基于广义傅里叶变换的谱分析框架,通过检测不可约表示中由连续对称性诱导的结构化稀疏模式,从而无需优化生成元即可有效发现未知的一参数子群对称性。
AutoResearch-RL 是一个无需人工干预的强化学习框架,它通过将环境冻结、目标代码可变与元学习器分离,在持续自我评估中自动发现并优化神经网络架构,最终在单 GPU 基准测试中达到了与人工调优相当甚至更优的性能。
该论文提出了一种检索增强的多尺度框架,通过结合捕捉短期生长动态与长期依赖的骨干模型及消除跨年份偏差的检索优化策略,显著提升了美国大范围县域玉米产量预测的准确性与空间泛化能力。
本文提出了 StructSAM,一种专为 Segment Anything Model (SAM) 设计的结构与谱保持令牌合并框架,它通过基于梯度的令牌能量评分和网格平坦度筛选机制,在显著降低计算量的同时有效保护了边界细节与提示信息,从而在多个自然及医学基准测试中优于现有方法。