cs.AR 篇论文 | Gist.Science

GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators

本文提出了 GOMA 框架，通过基于几何抽象的解析建模将 GEMM 映射转化为整数优化问题，首次实现了在任意硬件与负载组合下快速求解全局最优映射，显著优于现有最先进方法。

Wulve Yang, Hailong Zou, Rui Zhou, Jionghao Zhang, Qiang Li, Gang Li, Yi Zhan, Shushan QiaoTue, 10 Ma💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

该论文提出了一种基于物理先验的毫米波人体姿态估计预处理框架，通过显式建模距离 - 角度耦合、多普勒运动连续性等多维物理关联，在显著降低参数量并实现树莓派实时部署的同时，保持了与现有基线相当的估计精度。

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu GuanTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

本文提出了一种结合令牌能力架构与 FPGA 实现的新型方案，通过将 Zephyr 实时操作系统的所有运行时组件（包括调度器、分配器和 DMA 驱动）及外设完全去信任化，成功构建了无需运行时软件可信计算基（TCB）且无需修改外设硬件的安全嵌入式系统。

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

Managing Classical Processing Requirements for Quantum Error Correction

该论文指出量子纠错中的解码器需求波动是系统级容量规划问题，并提出了一种由量子操作系统管理的两级共享加速器调度框架，从而在容错基准测试中将解码器硬件需求降低了 10% 至 40%，证明了高效调度对实现实用化容错量子计算的关键作用。

Satvik Maurya, Abtin Molavi, Aws Albarghouthi, Swamit TannuThu, 12 Ma⚛️ quant-ph

Machine Learning on Heterogeneous, Edge, and Quantum Hardware for Particle Physics (ML-HEQUPP)

这篇白皮书提出了一项社区驱动的愿景，旨在通过整合人工智能、硅微电子和量子计算等新兴技术，优先研发面向下一代粒子物理实验的硬件机器学习系统，以应对前所未有的数据速率、极端环境及实时处理挑战。

Julia Gonski (Sunny), Jenni Ott (Sunny), Shiva Abbaszadeh (Sunny), Sagar Addepalli (Sunny), Matteo Cremonesi (Sunny), Jennet Dickinson (Sunny), Giuseppe Di Guglielmo (Sunny), Erdem Yigit Ertorer (Sunny), Lindsey Gray (Sunny), Ryan Herbst (Sunny), Christian Herwig (Sunny), Tae Min Hong (Sunny), Benedikt Maier (Sunny), Maryam Bayat Makou (Sunny), David Miller (Sunny), Mark S. Neubauer (Sunny), Cristián Peña (Sunny), Dylan Rankin (Sunny), Seon-Hee (Sunny), Seo, Giordon Stark, Alexander Tapper, Audrey Corbeil Therrien, Ioannis Xiotidis, Keisuke Yoshihara, G Abarajithan, Sagar Addepalli, Nural Akchurin, Carlos Argüelles, Saptaparna Bhattacharya, Lorenzo Borella, Christian Boutan, Tom Braine, James Brau, Martin Breidenbach, Antonio Chahine, Talal Ahmed Chowdhury, Yuan-Tang Chou, Seokju Chung, Alberto Coppi, Mariarosaria D'Alfonso, Abhilasha Dave, Chance Desmet, Angela Di Fulvio, Karri DiPetrillo, Javier Duarte, Auralee Edelen, Jan Eysermans, Yongbin Feng, Emmett Forrestel, Dolores Garcia, Loredana Gastaldo, Julián García Pardiñas, Lino Gerlach, Loukas Gouskos, Katya Govorkova, Carl Grace, Christopher Grant, Philip Harris, Ciaran Hasnip, Timon Heim, Abraham Holtermann, Tae Min Hong, Gian Michele Innocenti, Koji Ishidoshiro, Miaochen Jin, Jyothisraj Johnson, Stephen Jones, Andreas Jung, Georgia Karagiorgi, Ryan Kastner, Nicholas Kamp, Doojin Kim, Kyoungchul Kong, Katie Kudela, Jelena Lalic, Bo-Cheng Lai, Yun-Tsung Lai, Tommy Lam, Jeffrey Lazar, Aobo Li, Zepeng Li, Haoyun Liu, Vladimir Lončar, Luca Macchiarulo, Christopher Madrid, Benedikt Maier, Zhenghua Ma, Prashansa Mukim, Mark S. Neubauer, Victoria Nguyen, Sungbin Oh, Isobel Ojalvo, Hideyoshi Ozaki, Simone Pagan Griso, Myeonghun Park, Christoph Paus, Santosh Parajuli, Benjamin Parpillon, Sara Pozzi, Ema Puljak, Benjamin Ramhorst, Amy Roberts, Larry Ruckman, Kate Scholberg, Sebastian Schmitt, Noah Singer, Eluned Anne Smith, Alexandre Sousa, Michael Spannowsky, Sioni Summers, Yanwen Sun, Daniel Tapia Takaki, Antonino Tumeo, Caterina Vernieri, Belina von Krosigk, Yash Vora, Linyan Wan, Michael H. L. S. Wang, Amanda Weinstein, Andy White, Simon Williams, Felix YuThu, 12 Ma⚛️ hep-ex

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

本文提出了 RedFuser 框架，通过形式化理论方法自动识别并融合级联归约操作，在 AI 加速器上生成优化内核，从而在多种工作负载中实现比现有编译器快 2 至 5 倍的加速，并达到手写内核的性能水平。

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

本文介绍了 dmaplane，这是一个 Linux 内核模块，通过提供稳定的用户空间 API 来显式管理缓冲区生命周期、跨设备共享及 NUMA 感知分配等关键功能，从而解决了 AI 传输库在缓冲区编排方面的缺失，并实现了高效的 RDMA 数据传输与分布式推理。

Marco GrazianoThu, 12 Ma🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

该论文通过在 AMD Instinct MI325X 集群上对四种不同架构的大语言模型进行基准测试与部署研究，揭示了架构感知优化（如 MLA 模型需特定配置、AITER 运行时需选择性启用）对推理性能的关键影响，并证实了模型在大规模并发下的高吞吐量与稳定性。

Athos GeorgiouThu, 12 Ma🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

本文提出了 HTM-EAR，一种结合 HNSW 工作记忆与归档存储的分层记忆系统，通过重要性感知淘汰机制和混合路由策略，在长周期运行且上下文受限的饱和场景下，有效平衡了关键信息保留与陈旧记忆遗忘，显著优于传统 LRU 等基线方法。

Shubham Kumar SinghThu, 12 Ma🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

这篇论文从计算机体系结构视角出发，将多智能体记忆建模为包含共享与分布式范式及三层分级的架构问题，并指出跨智能体缓存共享、结构化访问控制以及最关键的记忆一致性是当前构建可靠可扩展多智能体系统面临的核心挑战。

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen ZhaoThu, 12 Ma🤖 cs.AI

Pooling Engram Conditional Memory in Large Language Models using CXL

本文提出利用 Compute Express Link (CXL) 内存池存储大语言模型的 Engram 条件记忆，通过 SGLang 集成实现了接近 DRAM 的端到端性能，为未来 Engram 集成的 LLM 提供了可扩展且高性价比的存储解决方案。

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie LuoThu, 12 Ma💻 cs

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

该论文提出了一种基于最高有效位（MSB）代理的“软稀疏”范式，通过将其集成到自定义 RISC-V 指令中，在保持零精度损失的前提下显著减少了卷积神经网络中的乘加操作并降低了功耗，从而有效克服了传统硬稀疏性在深层网络或平滑激活函数场景下的局限性。

Vishal Shashidhar, Anupam Kumari, Roy P PailyThu, 12 Ma🤖 cs.LG

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

该论文提出了一种名为边界抑制 K 均值量化（BS-KMQ）的新型非线性量化方法，通过抑制分布边界异常值来优化聚类，并结合可重构存内非线性 ADC 设计，在显著降低量化误差和 ADC 分辨率需求的同时，大幅提升了存内计算系统的精度、面积效率及能效。

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam BasuThu, 12 Ma💻 cs

An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS

本文提出了一种针对 JPEG XS 标准中帧内模式复制（IPC）位移向量搜索的高效流水线 FPGA 架构，通过优化存储组织实现了 38.3 Mpixels/s 的高吞吐量和低功耗，为其实用化部署及 ASIC 实现奠定了基础。

Qiyue Chen, Yao Li, Jie Tao, Song Chen, Li Li, Dong LiuThu, 12 Ma⚡ eess

Reference Architecture of a Quantum-Centric Supercomputer

该论文针对当前量子与经典超算系统孤立运作导致的效率瓶颈，提出了一种融合量子、图形及中央处理单元的“以量子为中心”的超算（QCSC）参考架构，并规划了从专用卸载引擎到完全协同设计的三阶段演进路线图，旨在加速量子算法在化学与材料科学等关键领域的应用探索。

Seetharami Seelam, Jerry M. Chow, Antonio Córcoles, Sarah Sheldon, Tushar Mittal, Abhinav Kandala, Sean Dague, Ian Hincks, Hiroshi Horii, Blake Johnson, Michael Le, Hani Jamjoom, Jay M. GambettaThu, 12 Ma⚡ eess

Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory

本文推导了基于学习存内（LIM）范式、通过调制物理存储能量势垒以匹配优化动力学的理想神经形态优化器的理论能耗下限，提出了一个仅依赖操作数、模型规模、收敛速度和精度的模型无关性能评估框架，并将其应用于大规模 AI 工作负载的能耗估算。

Zihao Chen, Faiek Ahsan, Johannes Leugering, Gert Cauwenberghs, Shantanu ChakrabarttyMon, 09 Ma🤖 cs.AI

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

本文提出了名为“线性布局”的新方法，通过利用 $\mathbb{F}_2$ 上的线性代数将张量布局建模为二进制矩阵，从而实现了通用且高效的布局定义与转换，显著降低了 Triton 编译器后端的工程复杂度并提升了张量计算性能。

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Scalable Digital Compute-in-Memory Ising Machines for Robustness Verification of Binary Neural Networks

该论文提出了一种基于数字存内计算（DCIM）SRAM 的伊辛机架构，通过将二值神经网络鲁棒性验证重构为 QUBO 问题并利用非最优解提取对抗扰动，实现了相比传统 CPU 方案在收敛速度和能效上分别提升 178 倍和 1538 倍的硬件加速验证方法。

Madhav Vadlamani, Rahul Singh, Yuyao Kong, Zheng Zhang, Shimeng YuMon, 09 Ma💻 cs

LUMINA: LLM-Guided GPU Architecture Exploration via Bottleneck Analysis

本文提出了 LUMINA 框架，利用大语言模型通过瓶颈分析自动提取架构知识并生成设计规则，从而在仅需 20 步探索的情况下，高效地发现了比 A100 性能更优的 GPU 设计方案，显著提升了 GPU 架构探索的效率与质量。

Tao Zhang, Rui Ma, Shuotao Xu, Peng Cheng, Yongqiang XiongMon, 09 Ma🤖 cs.AI

A Persistent-State Dataflow Accelerator for Memory-Bound Linear Attention Decode on FPGA

本文提出了一种基于 FPGA 的持久状态数据流加速器，通过将 Gated DeltaNet 的完整循环状态驻留于片上 BRAM 并结合流水线数据流设计，成功将内存受限的线性注意力解码转化为计算受限任务，在 AMD Alveo U55C 上实现了比 NVIDIA H100 GPU 快 4.5 倍且能效高出 60 倍的解码性能。

Neelesh Gupta, Peter Wang, Rajgopal Kannan, Viktor K. PrasannaMon, 09 Ma🤖 cs.LG

cs.AR