Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction
该论文提出了溢出感知缩放(OAS)和宏块缩放(MBS)两种纯软件技术,在无需硬件改动的前提下显著降低了 MXFP4 的量化误差,使其在保持硬件效率优势的同时,将端到端精度与 NVIDIA NVFP4 的差距从约 10% 缩小至 1% 以下。
23 篇论文
该论文提出了溢出感知缩放(OAS)和宏块缩放(MBS)两种纯软件技术,在无需硬件改动的前提下显著降低了 MXFP4 的量化误差,使其在保持硬件效率优势的同时,将端到端精度与 NVIDIA NVFP4 的差距从约 10% 缩小至 1% 以下。
本文提出了 ARKV 框架,通过基于注意力动态和 Token 重要性的自适应精度分配策略,在无需重训练或修改架构的前提下,显著降低了长上下文 LLM 推理中的 KV 缓存内存占用,同时保持了极高的任务准确率。
本文提出了 ChatNeuroSim,一种基于大语言模型智能体的框架,旨在通过自动化工作流和引入设计空间剪枝技术,解决传统存内计算(CIM)架构设计中依赖人工解读、迭代耗时及优化效率低下的问题,从而实现 DNN 加速器的快速部署与配置优化。
本文提出了一种名为 bsort 的非比较排序算法,该算法通过统一处理有符号/无符号整数及浮点数,实现了 的时间复杂度和 的辅助空间复杂度,在小字长数据场景下性能可与主流库中的优化混合算法相媲美。
该论文提出了"不等式”这一预测准则,揭示了混合专家(MoE)模型在推理阶段因路由碎片化和显存受限而遭受的“双重惩罚”,指出其在长上下文场景下往往不如同等质量的稠密模型高效,并建议将 MoE 视为训练优化手段,通过蒸馏为稠密模型以实现推理部署。
该论文首次将 NVIDIA GPU 的 FP64 张量核心与核融合优化相结合,显著加速了 MFEM 库中的高阶有限元模拟,在 Alps 系统近万张 GPU 上实现了卓越的扩展性,并成功应用于 2025 年戈登·贝尔奖获奖的海啸实时预报应用。
本文提出并验证了一种面向 ESP32 微控制器的动态精度数学引擎,通过集成 Q16.16 定点核心、CORDIC 三角函数模块及缓存感知矩阵乘法内核,实现了在运行时灵活切换定点与浮点执行路径,从而在保持精度的同时将三角函数运算速度提升了 18.5 至 24.7 倍。
该论文提出了一种基于 XLA 编译器的 Mamba-2 状态空间模型实现方案,通过仅使用标准算子而非定制 CUDA 内核,在 CPU、NVIDIA GPU 和 Google TPU 上实现了可移植的 自回归缓存推理,并达到了与 PyTorch/CUDA 参考实现一致的精度和显著的性能。
本文提出了名为 SparseLoom 的演示系统,通过无需重训练的模型拼接技术从稀疏模型中生成变体,从而在边缘 SoC 上实现多 DNN 推理,显著降低了服务等级目标违规率并提升了吞吐量与内存效率。
本文提出了一种完全驻留 GPU 的无锁多 GPU 架构,通过将段生成流水线迁移至设备端并引入异步工作窃取机制,消除了主机通信瓶颈,在 RTX 5090 等硬件上实现了高达 45.6 倍的加速,仅需 36.5 秒即可验证哥德巴赫猜想至 $10^{12}$。
该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。
本文提出了 RedFuser 框架,通过形式化理论方法自动识别并融合级联归约操作,在 AI 加速器上生成优化内核,从而在多种工作负载中实现比现有编译器快 2 至 5 倍的加速,并达到手写内核的性能水平。
本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。
本文提出了名为“线性布局”的新方法,通过利用上的线性代数将张量布局建模为二进制矩阵,从而实现了通用且高效的布局定义与转换,显著降低了 Triton 编译器后端的工程复杂度并提升了张量计算性能。
本文通过提出“排水盆地模式”概念模型,结合从 10 Gbps 到 100 Gbps 的规模化生产部署验证,揭示了端到端数据传输的瓶颈往往位于网络核心之外,强调需通过软硬件协同设计来突破单纯依赖网络带宽的局限,以实现可预测的高性能数据移动。
该论文通过实证研究 Llama-3.1 系列稠密大语言模型,揭示了张量并行(TP)与流水线并行(PP)在降低延迟与提升吞吐量方面的不同优势,并指出通过灵活配置两者的混合策略可有效平衡延迟与吞吐量的权衡,从而满足特定的服务等级协议需求。
本文提出了一种仅依赖端到端指标的黑盒在线控制器,通过爬山算法优化大语言模型服务的“好吞吐量”,并以此为例论证了将系统性能与可持续性指标纳入 AI 事实清单(Factsheets)对于构建可信 AI 的重要性。
本文设计并评估了一种适用于多核 NUMA 架构的并发确定性跳表,同时对比了无锁队列与哈希表实现的性能,提出了优化内存管理的策略,并建议通过分层使用并发数据结构来减少远程节点访问以降低内存延迟。
本文系统综述了针对大语言模型推理的动态路由与级联技术,通过构建涵盖决策时机、信息依据与计算方式的概念框架,分析了多种路由范式及其权衡,旨在通过智能模型选择实现效率与性能的最优平衡。
该研究评估了 Python 3.14.2 无 GIL 实验构建版的性能,发现其虽能通过有效利用多核将独立并行任务的执行时间和能耗降低至四分之一,但会导致内存占用增加,且对顺序任务或存在锁竞争的场景反而会造成能耗上升和性能退化,表明开发者需根据具体工作负载特性谨慎选择是否启用该功能。