ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization
本文提出了 ChatNeuroSim,一种基于大语言模型智能体的框架,旨在通过自动化工作流和引入设计空间剪枝技术,解决传统存内计算(CIM)架构设计中依赖人工解读、迭代耗时及优化效率低下的问题,从而实现 DNN 加速器的快速部署与配置优化。
76 篇论文
本文提出了 ChatNeuroSim,一种基于大语言模型智能体的框架,旨在通过自动化工作流和引入设计空间剪枝技术,解决传统存内计算(CIM)架构设计中依赖人工解读、迭代耗时及优化效率低下的问题,从而实现 DNN 加速器的快速部署与配置优化。
该研究通过对 Qwen2.5 系列模型进行系统性的逐层与逐块敏感性分析,揭示了前馈网络(MLP)的上下投影层对 FP4 量化最为敏感,且敏感性在不同模型规模、网络深度及 MXFP4 与 NVFP4 格式间存在显著差异,从而为 FP4 推理诊断提供了关键依据。
本文提出了一种名为 bsort 的非比较排序算法,该算法通过统一处理有符号/无符号整数及浮点数,实现了 的时间复杂度和 的辅助空间复杂度,在小字长数据场景下性能可与主流库中的优化混合算法相媲美。
该论文提出了"不等式”这一预测准则,揭示了混合专家(MoE)模型在推理阶段因路由碎片化和显存受限而遭受的“双重惩罚”,指出其在长上下文场景下往往不如同等质量的稠密模型高效,并建议将 MoE 视为训练优化手段,通过蒸馏为稠密模型以实现推理部署。
本文提出了名为 EPIC 的硬件与物理协同引导的分布式科学机器学习框架,通过端侧轻量编码与中心侧物理感知解码相结合,在显著降低通信延迟和能耗的同时,有效提升了全波形反演等任务的物理保真度与重建精度。
该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架,有效突破了电路网表示学习中真实标注数据稀缺的瓶颈,并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。
本文提出了受树突计算机制启发的 DendroNN 模型,通过无梯度的重连机制识别时空脉冲序列,并设计了基于时间轮的异步数字硬件架构,从而在事件驱动数据处理中实现了比现有神经形态硬件高 4 倍的能效。
本文提出了 TrainDeeploy 框架,该框架在异构超低功耗片上系统(SoC)上实现了首个支持 CNN 和 Transformer 模型的端到端设备端微调流水线,通过结合选择性分层微调与低秩适应(LoRA)等参数高效策略,显著降低了极端边缘设备上的计算与内存开销。
本文提出了 Nemo,一种专为闪存设备上的微小对象设计的低写放大缓存系统,它通过增加哈希碰撞概率来提升集合填充率,并结合基于布隆过滤器的索引与混合热度追踪机制,在显著降低应用级写放大的同时,实现了高内存效率和低缺失率。
本文提出了硬件感知低秩适应(HaLoRA)方法,通过在混合存内计算架构中将预训练权重部署于易噪的 RRAM 而将 LoRA 分支部署于无噪 SRAM,并引入理论推导的额外损失函数以增强 LoRA 对噪声的鲁棒性,从而在大幅降低能耗(约降至 A100 的 3%)的同时显著提升了推理精度。
该论文提出了首个将硬件描述语言(HDL)固有图特征(如抽象语法树和数据流图)与检索增强生成(RAG)相结合的 HDLxGraph 框架,并发布了基于真实项目的 HDLSearch 基准数据集,有效解决了现有 RAG 在处理复杂 HDL 项目时面临的结构性与词汇性不匹配问题,显著提升了搜索、调试和代码补全的准确率。
该论文通过系统研究更小的多超立方码变体并开发高效的容错编码器,发现尽管某些变体具有更高的编码率和更大的块大小,却能实现更低的逻辑错误率,从而为早期实验实现高效容错量子计算提供了重要方案。
该论文提出了一种面向 FPGA 的连续流数据率感知 CNN 推理架构,通过交错低数据率信号、共享硬件单元及优化并行化策略,解决了卷积层和池化层导致的数据率下降问题,从而在实现接近 100% 硬件利用率的同时显著降低了逻辑资源消耗,使得在单块 FPGA 上部署 MobileNet 等复杂网络成为可能。
本文介绍了 Orion,这是首个能够绕过 CoreML 直接利用苹果神经引擎(ANE)进行大语言模型训练与推理的开源端到端系统,它通过揭示并规避 ANE 的 20 项限制、实现权重热更新以将每步训练时间缩短 8.5 倍,并在 M4 Max 设备上成功实现了 GPT-2 的高效推理及 1.1 亿参数模型的稳定训练。
本文提出了 Space-Control,这是一种软硬件协同设计方案,通过硬件认证执行上下文和细粒度访问控制,在 CXL 内存池化环境中实现了进程级隔离,且性能开销极低(仅 3.3%)。
受人类大脑模块化组织启发,Mozart 提出了一种面向 3.5D 晶圆级芯片架构的算法 - 硬件协同设计框架,通过专家分配策略、细粒度调度机制及异构模块自适应共置,有效解决了混合专家模型(MoE)训练中的稀疏性挑战并显著提升了大规模语言模型的并行化效率与资源利用率。
本文提出了一种基于卷积田鼠机(CTM)的轻量级、可解释且硬件高效的 5G 网络干扰检测方案,该方案在真实 5G 测试床上验证了其性能,相比传统卷积神经网络(CNN)在保持相当检测精度的同时显著提升了训练速度并降低了内存占用,且具备在 FPGA 边缘设备上部署的潜力。
该论文提出了一种基于硅光学的新型扩散模型加速器,实验表明其在能效和吞吐量上分别比现有最先进加速器提升了至少 3 倍和 5.5 倍,从而有效解决了扩散模型在电子平台上推理能耗高的问题。
该论文针对现代计算系统中日益严重的内存瓶颈问题,主张将微架构设计从数据无关转向数据驱动和数据感知,通过提出四种结合轻量级机器学习与数据语义特征的机制(如强化学习预取器和感知器预测器),显著提升了系统的性能与能效。
ConnChecker 提出了一种基于图的自动化根因分析方法,通过整合形式化连通性检查工具的结构/功能依赖图与反例报告,将反例自动分类至三种针对性分析流程以定位故障并给出修复建议,在两项工业级 SoC 评估中实现了高达 80% 的调试时间缩减。