Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

该论文提出了溢出感知缩放(OAS)和宏块缩放(MBS)两种纯软件技术,在无需硬件改动的前提下显著降低了 MXFP4 的量化误差,使其在保持硬件效率优势的同时,将端到端精度与 NVIDIA NVFP4 的差距从约 10% 缩小至 1% 以下。

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

该论文提出了 DyLLM,一种无需训练的推理框架,通过检测相邻去噪步骤间注意力上下文的余弦相似度来识别“显著令牌”,并仅对这些令牌重新计算注意力与前馈操作,从而在保持精度的同时将掩码扩散语言模型的吞吐量提升最高达 9.6 倍。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

本文提出了名为“线性布局”的新方法,通过利用F2\mathbb{F}_2上的线性代数将张量布局建模为二进制矩阵,从而实现了通用且高效的布局定义与转换,显著降低了 Triton 编译器后端的工程复杂度并提升了张量计算性能。

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

该论文通过实证研究 Llama-3.1 系列稠密大语言模型,揭示了张量并行(TP)与流水线并行(PP)在降低延迟与提升吞吐量方面的不同优势,并指出通过灵活配置两者的混合策略可有效平衡延迟与吞吐量的权衡,从而满足特定的服务等级协议需求。

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

该研究评估了 Python 3.14.2 无 GIL 实验构建版的性能,发现其虽能通过有效利用多核将独立并行任务的执行时间和能耗降低至四分之一,但会导致内存占用增加,且对顺序任务或存在锁竞争的场景反而会造成能耗上升和性能退化,表明开发者需根据具体工作负载特性谨慎选择是否启用该功能。

José Daniel Montoya Salazar2026-03-06💻 cs