Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CIM-Explorer 的新工具，它就像是一个专门为“存算一体”（Computing-in-Memory）芯片设计的超级导航仪和模拟器。

为了让你轻松理解，我们可以把这项技术想象成是在建造一座极其高效的“智能图书馆”。

1. 背景：为什么要建这座图书馆？（打破瓶颈）

传统的电脑（冯·诺依曼架构）就像是一个勤奋但笨拙的搬运工。它把数据从“仓库”（内存）搬到“办公桌”（CPU）去计算，算完再搬回去。如果数据量巨大，搬运工就会累死，这就是著名的“冯·诺依曼瓶颈”。

RRAM（阻变存储器） 是一种新型材料，它允许我们在“仓库”里直接进行计算，不用搬运。这就像在图书馆的书架旁直接设立了一个微型计算站，书（数据）不用搬走，直接在书架上就能被整理和分析。

但是，这个新图书馆有个大问题：
这些书架（RRAM 单元）非常敏感，容易受温度、老化影响，导致“记性”不准（比如把“是”记成“否”，或者电阻值飘忽不定）。如果强行让书架处理复杂的数字（像 8 位或 16 位数字），错误会累积，导致结果一团糟。

解决方案： 既然书架记性不好，我们就简化任务。只让它处理最简单的指令：

二进制（BNN）： 只有“是”(+1) 和“否”(-1)。
三进制（TNN）： 只有“是”(+1)、“否”(-1) 和“不知道”(0)。

2. 核心问题：之前的工具不够用

以前，研究人员手里只有半套工具：

有的工具只管怎么把书分类（编译器），不管书架会不会出错。
有的工具只管模拟书架会出什么错（模拟器），但没法把复杂的书放进去。
有的工具只关注怎么设计书架（设计空间探索），但不知道具体的书怎么放。

而且，以前的工具大多假设书架能处理复杂的数字（8 位），这在实际的粗糙硬件上根本行不通。

3. CIM-Explorer 是什么？（全能工具箱）

CIM-Explorer 就是为了解决这个问题而生的一站式工具箱。它把“分类”、“模拟”和“设计”全部打通了。

想象一下，你是一位图书管理员，CIM-Explorer 是你的智能助手，它能帮你做三件事：

A. 智能翻译官（编译器）

它能把原本复杂的神经网络（比如用来识别猫和狗的 AI 模型）“翻译”成书架能听懂的简单语言（二进制或三进制）。

创意比喻： 就像把一本厚厚的《百科全书》翻译成只有“对/错”两个词的速记本，而且还能自动优化，把相关的书放在一起，减少搬运次数。

B. 多种摆放方案（映射策略）

因为书架有缺陷（不能存负数，不能存零电阻），它提供了多种摆放方案：

方案一（差分模式）： 用两本书代表一个数字（一本代表正，一本代表负），互相抵消误差。这就像用“一正一负”两个砝码来称重，即使砝码有点不准，互相抵消后结果依然准。
方案二（线性缩放）： 把所有数字都变成正数，加个偏移量。这就像把所有温度都加上 100 度，变成正数再处理。
CIM-Explorer 的优势： 它能让你快速尝试这几种方案，看看哪种在“坏书架”上表现最好。

C. 虚拟试衣间（模拟器与设计探索）

在真的造出芯片之前，它能在电脑里模拟各种情况：

如果书架的“记性”偏差大一点（细胞变异），准确率会掉多少？
如果翻译官（ADC，模数转换器）的精度低一点（比如只用 3 位数字），结果还能看吗？
创意比喻： 就像在虚拟世界里，你给图书馆设定了“狂风暴雨”（高噪声）或“地震”（高变异）的环境，然后看哪种“摆放方案”能让书依然整齐，分类依然准确。

4. 实验结果：它发现了什么？

研究人员用这个工具做了一些有趣的“实验”：

精度 vs. 成本： 他们发现，即使模拟器的精度很低（比如只用 3 位数字，而不是通常的 8 位），只要选对了“摆放方案”（比如 BNN VI 方案），识别准确率依然能保持很高。这意味着我们可以用更便宜、更简单的硬件。
大模型更抗造： 令人惊讶的是，更大的神经网络模型（比如 BinaryDenseNet37）在面对硬件缺陷时，反而比小模型更稳定。这就像是一个经验丰富的老图书管理员，即使书架有点乱，他也能凭经验把书找对；而新手（小模型）稍微有点乱就找不到了。
三进制（TNN）的表现： 引入“不知道”(0) 这个状态（三进制）在某些情况下比只有“是/否”（二进制）更好，因为它能更好地利用硬件特性，减少错误。

5. 总结：这对我们意味着什么？

CIM-Explorer 就像是一个桥梁，连接了“完美的理论算法”和“不完美的现实硬件”。

以前： 工程师们只能盲人摸象，要么造了芯片发现算不准，要么设计了算法发现硬件不支持。
现在： 有了这个工具，工程师可以在设计芯片的早期阶段，就在电脑上模拟出各种“坏情况”，选出最优的算法和硬件参数组合。

一句话总结：
这就好比你打算在漏雨的帐篷里举办一场精密的数学考试。CIM-Explorer 就是那个帮你提前模拟雨有多大、桌子怎么摆、题目怎么改，才能确保学生们（AI 模型）即使在这种恶劣环境下，依然能考出高分的超级策划师。

这项研究让未来的 AI 芯片可以做得更小、更省电、更便宜，同时还能保持很高的智能水平。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：基于 CIM-Explorer 优化 RRAM 交叉阵列上的二值与三值神经网络推理

1. 研究背景与问题 (Problem)

背景：
存内计算（Computing-in-Memory, CIM）架构利用电阻式随机存取存储器（RRAM）交叉阵列，通过将计算与存储融合，有望突破冯·诺依曼架构的瓶颈。RRAM 因其高能效、高密度和 CMOS 兼容性而备受关注。

核心挑战：

器件非理想性： RRAM 器件存在 Cycle-to-Cycle (C2C) 和 Device-to-Device (D2D) 的变异性、热不稳定性、有限的耐久性以及读取干扰等问题。特别是多电平单元（MLC）RRAM 受非线性 I-V 特性和噪声影响严重。
硬件适应性： 为了应对上述非理想性，RRAM 交叉阵列通常采用二值模式（仅利用高阻态 HRS 和低阻态 LRS 两种状态）。这使得二值神经网络（BNN）和三值神经网络（TNN）成为理想的映射对象，因为它们只需处理有限的状态。
现有工具局限性： 现有的 RRAM 基础 CIM 工具通常存在以下缺陷：
- 功能割裂： 专注于编译、仿真或设计空间探索（DSE）中的某一方面，缺乏端到端的解决方案。
- 量化精度限制： 大多基于 8 位或 16 位量化，缺乏针对 BNN/TNN（1-2 位）的专用优化。
- 缺乏一致性： 分离的 DSE 和编译工具可能导致模拟结果与实际硬件执行顺序不一致，产生误差。

目标： 需要一个统一的工具链，能够支持从早期精度估算、映射选择到最终芯片编译的完整设计流程，专门针对 RRAM 交叉阵列上的 BNN 和 TNN 推理进行优化。

2. 方法论与系统架构 (Methodology)

作者提出了 CIM-Explorer，这是一个模块化的工具包，旨在优化 BNN 和 TNN 在 RRAM 交叉阵列上的推理。其核心架构包含四个主要模块（如图 1 所示）：

2.1 基于 TVM 的编译器 (Compiler)

前端： 基于 Tensor Virtual Machine (TVM) 框架，开发了新的 Larq 前端。Larq 是一个开源的 BNN/TNN 训练框架（基于 TensorFlow/Keras）。由于主版 TVM 不支持 Larq 特有的层（如 QuantDense, QuantConv2D），作者从头构建了前端，将其转换为 TVM 的 Relay 图。
优化策略：
- 策略（Strategies）： 允许根据目标架构选择不同的计算操作和调度。
- 调度（Scheduling）： 将卷积等操作分解为矩阵向量乘法（MVM），并通过 reorder 和 tiling 原语，将内核提取为子矩阵，以便在交叉阵列上执行。
- 降低（Lowering）： 自定义降低通道（Lowering Passes），将计算替换为对功能接口的函数调用，并处理边缘情况（如 if 语句的循环分割）。
输出： 生成针对特定交叉阵列尺寸（ $M_{int} \times N_{int}$ ）优化的代码，并插入未解析的函数调用，等待运行时链接。

2.2 映射技术 (Mapping / Compute Modes)

为了处理负权重和零值（RRAM 无法直接表示负电导或零电导），作者定义了多种映射模式，分为数字交叉阵列算术（Digital）和模拟交叉阵列算术（Analog）两个阶段：

线性缩放（Linear-scaling）： 通过缩放和偏移使权重为正。每个权重仅需 1 个单元（适合 BNN），但可能引入偏移误差。
差分模式（Differential）： 使用两个 RRAM 单元分别表示正负部分。对模拟误差（状态无关、状态相关、量化误差）更鲁棒，但占用更多单元。
具体映射方案：
- BNN 映射： 定义了 6 种映射（BNN I-VI），涵盖不同的输入/权重处理方式（如 XNOR 操作、差分输入等）。
- TNN 映射： 定义了 5 种映射（TNN I-V），将三值（-1, 0, 1）转换为 2 位二进制或差分形式。
修正项： 在模拟域转换中，引入了数字修正（编译时已知常数）和模拟修正（由非零最小电导 $G_{min}$ 引起）来补偿误差。

2.3 仿真器接口 (Simulators)

定义了标准化的功能接口和交叉阵列接口。
支持多种后端：包括快速 C/C++ 仿真器、Python 回调原型，以及未来的真实硬件。
ADC 模型： 简化了模数转换器（ADC）模型，考虑了输入范围（Clipping）和分辨率（Quantization），通过截断因子 $\alpha$ 和位宽 $B$ 模拟量化误差。

2.4 设计空间探索 (DSE)

利用上述组件自动化分析交叉阵列参数（如变异性 $\sigma$ ）、ADC 参数（分辨率、截断）和映射策略对推理精度的影响。
能够在早期设计阶段预测不同配置下的精度损失。

3. 关键贡献 (Key Contributions)

首个端到端 BNN/TNN 工具链： 提出了 CIM-Explorer，填补了 RRAM 交叉阵列上 BNN/TNN 从编译、映射到 DSE 的空白，支持 Larq 训练模型。
模块化架构： 实现了编译器、映射策略和仿真器之间的解耦。用户可以独立更换映射算法、仿真后端或硬件参数，极大提高了灵活性。
创新的映射与优化：
- 详细推导了 BNN 和 TNN 从整数算术到数字/模拟交叉阵列算术的转换公式。
- 提出了多种映射变体（如 BNN VI 的 XNOR 变体、差分模式等），并分析了它们在资源消耗（单元数/周期数）和抗噪性之间的权衡。
全面的 DSE 流程： 将编译器生成的代码直接用于 DSE，确保了模拟环境与最终代码生成的一致性，消除了传统分离工具带来的偏差。

4. 实验结果 (Results)

作者在 CIFAR-10 (VGG-7) 和 CIFAR-100 (BinaryNet, BinaryDenseNet) 数据集上进行了广泛的实验：

4.1 ADC 参数影响

分辨率与截断： 即使 ADC 分辨率低至 3-4 bit，在适当的映射下（如 BNN VI），精度仍能保持接近原始水平。
映射对比：
- BNN VI（差分输入/权重）在大多数情况下表现最佳，对 ADC 截断不敏感，但需要更多单元。
- BNN I & II（线性缩放）表现次之，但优于 BNN III & IV。
- BNN V（XNOR）表现最差，未显示出优势。
- TNN 对比： 差分映射（TNN I-III）优于线性缩放映射（TNN IV-V）。TNN I 在硬件支持时表现最佳。

4.2 器件变异性 (Cell Variability)

HRS vs LRS： 发现 HRS（高阻态，对应逻辑 0 或负值）的变异性对精度影响更大，部分原因是由于模拟域中无法产生负电流，导致高斯分布截断引起的不对称误差。
鲁棒性： BNN VI 和 TNN I/II 对 LRS 变异性表现出最强的鲁棒性。TNN 对 HRS 变异性更敏感，因为 TNN 中 0 值（映射到 HRS）出现频率高于 BNN 中的 $\pm 1$ 。

4.3 大规模模型扩展

在 CIFAR-100 上的 BinaryDenseNet37 实验中，即使模型更大，3 bit ADC 分辨率仍足以维持精度损失在 1% 以内。
反直觉发现： 较大的 BNN 模型（如 BinaryDenseNet37）比小模型对非线性误差的容忍度更高。这意味着在 RRAM 硬件上，不应盲目追求小模型，大模型可能在非理想硬件上表现更好。

5. 意义与结论 (Significance)

设计指导： CIM-Explorer 为 RRAM 硬件设计者和算法开发者提供了一个强有力的工具，用于在芯片制造前评估不同映射策略和硬件参数（如 ADC 精度、器件变异性）对最终系统性能的影响。
硬件协同设计： 证明了通过选择合适的映射（如差分模式）和硬件参数（如 3-4 bit ADC），可以在非理想的 RRAM 器件上实现高精度的 BNN/TNN 推理。
开源生态： 该工具包已开源（GitHub），包含编译器、映射库和仿真器，促进了 CIM 领域的社区协作和标准化。
未来方向： 虽然本文主要关注精度，但该框架已扩展至能效分析，未来可进一步探索精度与能效的联合优化。

总结： 本文通过 CIM-Explorer 建立了一个完整的、模块化的设计空间探索流程，解决了 RRAM 交叉阵列上 BNN/TNN 推理中编译、映射和仿真割裂的问题，并揭示了在存在器件非理想性的情况下，如何通过算法 - 硬件协同设计来最大化系统性能。

Optimizing Binary and Ternary Neural Network Inference on RRAM Crossbars using CIM-Explorer