Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

この論文は、ハードウェア変更を伴わずにオーバーフロー感知スケーリングとマクロブロックスケーリングという 2 つのソフトウェア技術を導入することで、MXFP4 の量子化精度を大幅に向上させ、NVIDIA の NVFP4 との精度差を約 10% から 1% 未満に縮小し、MXFP4 を実用的な代替手段として再確立したことを示しています。

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

本論文は、LLM の長文脈推論における KV キャッシュのメモリ制約を解決するため、再学習やアーキテクチャ変更なしで、レイヤごとの注意動力学とトークンの重要度に基づき動的に精度レベルを割り当てる適応型フレームワーク「ARKV」を提案し、メモリ使用量を 4 分の 1 に削減しながら基線モデルの精度を約 97% 維持することを示しています。

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

本論文は、計算内蔵メモリ(CIM)アクセラレータの設計空間探索を自動化し、大規模言語モデル(LLM)エージェントと設計空間剪定技術を用いてシミュレーションから最適化までのワークフローを効率化し、DNN ワークロードに対する最適構成の迅速な特定を可能にする「ChatNeuroSim」というフレームワークを提案するものである。

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

この論文は、整数および浮動小数点数に対して、バイナリクイックソートに由来する手法を統合し、要素の語長 ww に対して O(wn)O(wn) の実行時間と O(w)O(w) の補助空間で動作する「bsort」という非比較ソートアルゴリズムを提案し、特に語長が小さいデータ型において既存の高度に最適化されたハイブリッドアルゴリズムと競合する性能を示すことを述べています。

Benjamín GuzmánWed, 11 Ma💻 cs

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

本論文は、混合専門家(MoE)モデルが推論時に「重みの再利用断片化」と「KV キャッシュのメモリ制約」という二重のペナルティに直面し、長文脈環境では密度モデルよりもスループットが劣ることを「qsqs 不等式」で定式化し、MoE の推論効率の限界を指摘しています。

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

本論文は、NVIDIA の FP64 Tensor Core とカーネル融合最適化を MFEM へ統合することで、高次有限要素シミュレーションの性能を最大 2 倍、エネルギー効率を最大 83% 向上させ、Alps システムにおける 1 万 GPU 規模でのエクサスケール実証と 2025 年ゴードン・ベル賞受賞の津波予測コードへの実用化を達成したことを報告しています。

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

本論文は、ESP32 などの低コストマイクロコントローラ向けに、Q16.16 固定小数点演算コア、CORDIC 三角関数モジュール、およびキャッシュ対応行列乗算カーネルを統合し、実行時に固定小数点と浮動小数点の精度を動的に切り替えることで、リアルタイム物理シミュレーションや制御システムにおける数値計算性能とエネルギー効率を大幅に向上させる「動的精度数学エンジン」の設計と評価を提案するものである。

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable O(1)O(1) Autoregressive Caching for Inference

本論文は、Mamba-2 の状態空間双対性アルゴリズムを XLA の最適化パスに直接マッピングすることで、CUDA 固有のカーネルに依存せず CPU、NVIDIA GPU、Google Cloud TPU 単一ソースから実行可能なポータブルかつ O(1)O(1) のオートレグレイシブキャッシングを実現し、TPU 上で高い性能と精度を確認したことを報告しています。

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Multi-DNN Inference of Sparse Models on Edge SoCs

本論文は、再学習なしにスパースモデルのサブグラフを再構成する「モデルステッチング」手法と、それをエッジ SoC に実装した実証システム「SparseLoom」を提案し、既存のマルチ DNN 推論システムと比較して SLO 違反率の大幅な削減、スループットの向上、およびメモリオーバーヘッドの低減を実現することを示しています。

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

この論文は、ホストとの通信を排除した完全 GPU 常駐アーキテクチャと非同期ロックフリーのワークステアリングを採用し、ゴールドバッハの予想の検証において前代モデルを 45.6 倍高速化し、単一 RTX 5090 で$10^{12}$までの検証を 36.5 秒で達成する画期的な手法を提案しています。

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

本論文は、拡散言語モデルの推論において、隣接するデノイジングステップ間の注意コンテキストの類似性を測定して「顕著なトークン」のみを特定し、それ以外のトークンの計算をキャッシュ再利用することで、精度を維持しながら最大 9.6 倍の処理速度向上を実現するトレーニング不要のフレームワーク「DyLLM」を提案しています。

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

本論文は、AI 加速装置におけるカスケード縮約演算を単一のループに自動的に融合させるための理論的枠組みと「RedFuser」というフレームワークを提案し、既存の AI コンパイラや手書きカーネルと同等またはそれ以上の性能向上を実現することを示しています。

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

本論文では、RAG パイプラインの各コンポーネントをモジュール化し、実世界のワークロードをシミュレートしながら、パフォーマンスと精度を包括的に評価できるエンドツーエンドのベンチマークフレームワーク「RAGPerf」の設計と実装を提案しています。

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

この論文は、F2\mathbb{F}_2 上の線形代数を用いてテンソルレイアウトをモデル化する「Linear Layouts」という新規アプローチを提案し、Triton への統合を通じて既存手法の課題を解決し、効率的なテンソル計算の実現とコンパイラバックエンドの工数削減を達成したことを示しています。

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

この論文は、単にネットワーク帯域幅を向上させるだけでは不十分であり、CPU や仮想化などのホスト側要因を含むエンドツーエンドの制約を包括的に分析する「排水盆地パターン」を提唱し、大規模データ転送のボトルネックがネットワークコア外部に存在することを実証しています。

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

本論文は、Llama-3.1-70B と 405B といった大規模言語モデルの実証評価を通じて、レイテンシ最適化にはテンソル並列化が、スループット重視にはパイプライン並列化が適しており、両者の組み合わせ制御によってレイテンシとスループットのトレードオフを管理可能であることを示しています。

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

この論文は、内部計測なしでエンドツーエンドの測定とヒルクライミングを用いてLLMのサービスレベル目標を満たすスループットを最大化する新しいブラックボックス型オンライン制御手法を提案し、その有効性を示すとともに、AIシステムの信頼性確保のためにシステム性能や持続可能性の指標をファクトシートに統合する重要性を論じています。

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

本論文は、NUMA 環境における並行決定性スキップリストの設計・分析・性能評価に加え、ロックフリーキューやハッシュテーブルの実装を Intel TBB と比較し、メモリアクセスパターンに応じたメモリ管理戦略や階層的なデータ構造の活用を通じて、リモート NUMA ノードからのアクセスを削減しメモリアクセス遅延を改善する手法を提案しています。

Aparna Sasidharan2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Python 3.14.2 の GIL 無効化ビルドは、並列処理可能なワークロードでは実行時間とエネルギー消費を最大 4 倍削減する一方で、逐次処理や共有リソースへの頻繁なアクセスを伴うケースではエネルギー効率の低下やメモリ使用量の増加を招くため、導入にはワークロード特性に応じた慎重な評価が必要である。

José Daniel Montoya Salazar2026-03-06💻 cs