A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation
本文提出了一种名为 HRFNA 的混合余数浮点数值架构,该架构通过结合无进位余数算术与轻量级指数缩放,在 FPGA 上实现了高吞吐量、低资源消耗及严格误差界定的高效计算,显著提升了科学计算与 CAD 应用的能效与性能。
76 篇论文
本文提出了一种名为 HRFNA 的混合余数浮点数值架构,该架构通过结合无进位余数算术与轻量级指数缩放,在 FPGA 上实现了高吞吐量、低资源消耗及严格误差界定的高效计算,显著提升了科学计算与 CAD 应用的能效与性能。
该论文提出了溢出感知缩放(OAS)和宏块缩放(MBS)两种纯软件技术,在无需硬件改动的前提下显著降低了 MXFP4 的量化误差,使其在保持硬件效率优势的同时,将端到端精度与 NVIDIA NVFP4 的差距从约 10% 缩小至 1% 以下。
该论文通过受控的因子实验设计,实证研究了不同规模与类型的语言模型在 Verilog 代码生成任务中与提示工程策略(如结构化输出、思维链及进化优化)的交互规律,揭示了通用趋势与特定模型 - 提示组合间的差异。
该论文介绍了名为"Design Conductor"的自主智能体,它仅用 12 小时便从需求文档出发,全自动设计并验证了首款可运行 Linux、主频达 1.48 GHz 的 RISC-V 处理器(VerCore),实现了从概念到可流片 GDSII 文件的端到端芯片构建。
本文提出了 CktEvo,这是一个针对真实世界 IP 核的仓库级 RTL 代码基准测试与参考框架,旨在通过结合 LLM 编辑与工具链反馈的闭环系统,在保持功能正确性的同时实现跨文件依赖的功耗、性能和面积(PPA)优化。
本文提出了名为 SiliconMind-V1 的统一多智能体框架,通过集成测试台驱动的验证与推理导向的数据生成,实现了本地微调大模型在无需外部商业工具的情况下,能够以测试时扩展的方式迭代生成、测试并调试 Verilog RTL 设计,且在功能正确性上超越了现有最先进方法。
本文提出了名为 AnalogToBi 的框架,通过结合二分图表示、电路类型令牌实现的功能控制以及语法引导解码,有效解决了现有方法在模拟电路拓扑生成中存在的功能可控性差、数据记忆和电气无效性问题,实现了无需人工干预即可生成高有效性、高新颖性且经 SPICE 仿真验证的高质量模拟电路拓扑。
本文提出了 KernelCraft,这是首个用于评估大语言模型智能体在新兴硬件架构上通过反馈驱动流程自动生成和优化底层内核的基准测试,实验表明该方法能有效降低内核开发成本并生成性能优于传统编译器模板的高质量代码。
本文提出了 ALADIN 框架,旨在针对基于 Scratchpad 的嵌入式 AI 加速器,在不依赖目标平台部署的情况下,通过渐进式细化混合精度量化模型,实现对推理过程中精度、延迟与资源消耗之间权衡的精准评估与硬件软件协同设计分析。
该博士论文通过系统文献综述识别研究空白,开发了新型分析评估工具,提出了平衡计算效率与容错性的量化与近似优化方法,并创新性地设计了零开销实时可靠性增强技术 AdAM,显著提升了 DNN 硬件加速器的可靠性并降低了硬件成本。
本文综述了超低功耗边缘与片上传感器 AI 处理器的演进现状,并通过在 GAP9、STM32N6 和 Sony IMX500 三种代表性平台上对 PicoSAM2 模型的实证基准测试,揭示了不同架构在延迟、能效及能量延迟积方面的性能权衡,突显了片上传感器处理技术的成熟度与重要性。
本文提出了一种面向多像素处理的数据速率感知 CNN FPGA 加速器架构,通过设计空间探索优化层间配置,在保持数据连续流动的同时显著降低了算术资源消耗,从而实现了复杂 CNN 在单一 FPGA 上的高效部署。
本文提出了 ARKV 框架,通过基于注意力动态和 Token 重要性的自适应精度分配策略,在无需重训练或修改架构的前提下,显著降低了长上下文 LLM 推理中的 KV 缓存内存占用,同时保持了极高的任务准确率。
该论文提出了一种通过用单次平方运算替代实数乘法、用三次平方运算替代复数乘法来显著降低矩阵乘法和卷积硬件资源消耗的新方法,并设计了相应的平方基脉动阵列和张量核心架构。
该研究通过在 IQM、Rigetti 和 IonQ 等跨平台处理器上评估基于盲重置的测量-free 辅助比特回收方案,揭示了其在特定相干性条件下能显著降低逻辑循环延迟(最高达 38 倍)并维持高清洁度,从而为不同架构下的辅助比特复用策略提供了具体的部署决策依据。
本文提出了一种基于敏感度引导的压缩框架,通过系统性地探索量化与剪枝的权衡,在 FPGA 实现中显著提升了储层计算加速器的硬件效率(如降低功耗延迟积),同时保持了模型精度。
本文提出了 FormalRTL,一种通过集成软件参考模型作为形式化规范来指导生成与验证、从而解决工业级数据路径设计挑战的可扩展多智能体框架。
本文提出了 Kareto,一种针对大语言模型 KV 缓存的自适应多目标分层存储配置优化器,它通过利用收益递减剪枝策略高效搜索帕累托前沿,并结合细粒度自适应调优机制,在真实工作负载下实现了吞吐量、延迟或成本等指标相比固定配置显著更优的平衡。
本文综述了 FPGA 在深度学习加速中的应用,探讨了包括流水线、并行化、量化及存储层次优化在内的硬件优化技术,分析了现有加速器的现状与挑战,并展望了未来的设计创新方向。
本文提出了专为 AI 加速器设计的 AetherFloat 系列浮点架构,通过采用四基(Base-4)缩放、显式尾数及无块缩放(Block-Scale-Free)特性,在消除动态缩放硬件开销的同时,显著降低了 MAC 单元的芯片面积、功耗和延迟,并实现了更优的动态范围与梯度稳定性。