GOMA: Geometrically Optimal Mapping via Analytical Modeling for Spatial Accelerators
本文提出了 GOMA 框架,通过基于几何抽象的解析建模将 GEMM 映射转化为整数优化问题,首次实现了在任意硬件与负载组合下快速求解全局最优映射,显著优于现有最先进方法。
77 篇论文
本文提出了 GOMA 框架,通过基于几何抽象的解析建模将 GEMM 映射转化为整数优化问题,首次实现了在任意硬件与负载组合下快速求解全局最优映射,显著优于现有最先进方法。
该论文提出了一种基于物理先验的毫米波人体姿态估计预处理框架,通过显式建模距离 - 角度耦合、多普勒运动连续性等多维物理关联,在显著降低参数量并实现树莓派实时部署的同时,保持了与现有基线相当的估计精度。
本文提出了一种结合令牌能力架构与 FPGA 实现的新型方案,通过将 Zephyr 实时操作系统的所有运行时组件(包括调度器、分配器和 DMA 驱动)及外设完全去信任化,成功构建了无需运行时软件可信计算基(TCB)且无需修改外设硬件的安全嵌入式系统。
该论文指出量子纠错中的解码器需求波动是系统级容量规划问题,并提出了一种由量子操作系统管理的两级共享加速器调度框架,从而在容错基准测试中将解码器硬件需求降低了 10% 至 40%,证明了高效调度对实现实用化容错量子计算的关键作用。
这篇白皮书提出了一项社区驱动的愿景,旨在通过整合人工智能、硅微电子和量子计算等新兴技术,优先研发面向下一代粒子物理实验的硬件机器学习系统,以应对前所未有的数据速率、极端环境及实时处理挑战。
本文提出了 RedFuser 框架,通过形式化理论方法自动识别并融合级联归约操作,在 AI 加速器上生成优化内核,从而在多种工作负载中实现比现有编译器快 2 至 5 倍的加速,并达到手写内核的性能水平。
本文介绍了 dmaplane,这是一个 Linux 内核模块,通过提供稳定的用户空间 API 来显式管理缓冲区生命周期、跨设备共享及 NUMA 感知分配等关键功能,从而解决了 AI 传输库在缓冲区编排方面的缺失,并实现了高效的 RDMA 数据传输与分布式推理。
该论文通过在 AMD Instinct MI325X 集群上对四种不同架构的大语言模型进行基准测试与部署研究,揭示了架构感知优化(如 MLA 模型需特定配置、AITER 运行时需选择性启用)对推理性能的关键影响,并证实了模型在大规模并发下的高吞吐量与稳定性。
本文提出了 HTM-EAR,一种结合 HNSW 工作记忆与归档存储的分层记忆系统,通过重要性感知淘汰机制和混合路由策略,在长周期运行且上下文受限的饱和场景下,有效平衡了关键信息保留与陈旧记忆遗忘,显著优于传统 LRU 等基线方法。
这篇论文从计算机体系结构视角出发,将多智能体记忆建模为包含共享与分布式范式及三层分级的架构问题,并指出跨智能体缓存共享、结构化访问控制以及最关键的记忆一致性是当前构建可靠可扩展多智能体系统面临的核心挑战。
本文提出利用 Compute Express Link (CXL) 内存池存储大语言模型的 Engram 条件记忆,通过 SGLang 集成实现了接近 DRAM 的端到端性能,为未来 Engram 集成的 LLM 提供了可扩展且高性价比的存储解决方案。
该论文提出了一种基于最高有效位(MSB)代理的“软稀疏”范式,通过将其集成到自定义 RISC-V 指令中,在保持零精度损失的前提下显著减少了卷积神经网络中的乘加操作并降低了功耗,从而有效克服了传统硬稀疏性在深层网络或平滑激活函数场景下的局限性。
该论文提出了一种名为边界抑制 K 均值量化(BS-KMQ)的新型非线性量化方法,通过抑制分布边界异常值来优化聚类,并结合可重构存内非线性 ADC 设计,在显著降低量化误差和 ADC 分辨率需求的同时,大幅提升了存内计算系统的精度、面积效率及能效。
本文提出了一种针对 JPEG XS 标准中帧内模式复制(IPC)位移向量搜索的高效流水线 FPGA 架构,通过优化存储组织实现了 38.3 Mpixels/s 的高吞吐量和低功耗,为其实用化部署及 ASIC 实现奠定了基础。
该论文针对当前量子与经典超算系统孤立运作导致的效率瓶颈,提出了一种融合量子、图形及中央处理单元的“以量子为中心”的超算(QCSC)参考架构,并规划了从专用卸载引擎到完全协同设计的三阶段演进路线图,旨在加速量子算法在化学与材料科学等关键领域的应用探索。
本文推导了基于学习存内(LIM)范式、通过调制物理存储能量势垒以匹配优化动力学的理想神经形态优化器的理论能耗下限,提出了一个仅依赖操作数、模型规模、收敛速度和精度的模型无关性能评估框架,并将其应用于大规模 AI 工作负载的能耗估算。
本文提出了名为“线性布局”的新方法,通过利用上的线性代数将张量布局建模为二进制矩阵,从而实现了通用且高效的布局定义与转换,显著降低了 Triton 编译器后端的工程复杂度并提升了张量计算性能。
该论文提出了一种基于数字存内计算(DCIM)SRAM 的伊辛机架构,通过将二值神经网络鲁棒性验证重构为 QUBO 问题并利用非最优解提取对抗扰动,实现了相比传统 CPU 方案在收敛速度和能效上分别提升 178 倍和 1538 倍的硬件加速验证方法。
本文提出了 LUMINA 框架,利用大语言模型通过瓶颈分析自动提取架构知识并生成设计规则,从而在仅需 20 步探索的情况下,高效地发现了比 A100 性能更优的 GPU 设计方案,显著提升了 GPU 架构探索的效率与质量。
本文提出了一种基于 FPGA 的持久状态数据流加速器,通过将 Gated DeltaNet 的完整循环状态驻留于片上 BRAM 并结合流水线数据流设计,成功将内存受限的线性注意力解码转化为计算受限任务,在 AMD Alveo U55C 上实现了比 NVIDIA H100 GPU 快 4.5 倍且能效高出 60 倍的解码性能。