Efficient and Flexible Multirate Temporal Adaptivity
本文提出了两种专为多速率无穷小(MRI)积分方法设计的新型多速率时间步长自适应控制器,并结合新构建的 2 至 5 阶显式多速率指数龙格 - 库塔(MERK)方法的嵌入对,显著提升了处理多时间尺度问题时的计算效率、灵活性与精度。
8 篇论文
本文提出了两种专为多速率无穷小(MRI)积分方法设计的新型多速率时间步长自适应控制器,并结合新构建的 2 至 5 阶显式多速率指数龙格 - 库塔(MERK)方法的嵌入对,显著提升了处理多时间尺度问题时的计算效率、灵活性与精度。
本文提出了名为"EinSum"的张量 - 关系计算新范式,通过自动将爱因斯坦求和符号重写为混合形式,实现了在关系系统中高效管理大规模稀疏数据的同时,利用高性能数值内核执行核心数学运算。
该论文首次将 NVIDIA GPU 的 FP64 张量核心与核融合优化相结合,显著加速了 MFEM 库中的高阶有限元模拟,在 Alps 系统近万张 GPU 上实现了卓越的扩展性,并成功应用于 2025 年戈登·贝尔奖获奖的海啸实时预报应用。
本文提出了一种完全驻留 GPU 的无锁多 GPU 架构,通过将段生成流水线迁移至设备端并引入异步工作窃取机制,消除了主机通信瓶颈,在 RTX 5090 等硬件上实现了高达 45.6 倍的加速,仅需 36.5 秒即可验证哥德巴赫猜想至 $10^{12}$。
本文介绍了一个基于 Optimistix 库的 JAX 实现,提供了包含缩放变体的自缩放 Broyden 族拟牛顿优化器(如 BFGS、DFP 等)及满足强 Wolfe 条件的 Zoom 线搜索,旨在记录技术细节并促进 JAX 社区对这些优化器的采用。
本文提出了一种利用迹、偏量不变量及判别式等四个不变量来数值稳定地计算实对角化 $3 \times 3$ 矩阵特征值的闭式方法,该方法不仅推导了误差界并验证了算法精度,还在保持精度的同时比 LAPACK 库快约十倍。
本文提出了一种利用稀疏插值进行部分 Gröbner 基计算及高效搜索固定次数多项式的算法,用于从多变量有理函数域的子域生成集中寻找简化生成集,并通过结构参数可识别性等案例证明其在效率与结果质量上均优于现有方法。
本文介绍了 Threadle,这是一个用 C# 编写的开源高性能网络存储与查询引擎,它通过创新的伪投影技术,能够在极低的内存占用下高效处理包含数百万节点和数十亿边的大规模、多层及混合模式网络,并提供了跨平台命令行界面及 R 语言前端以支持复杂的分析任务。