Identification and mitigation of memory block timing issue in ITk ABCStar during ASIC production

本文详细阐述了 ABCStar ASIC 中一个威胁生产良率的时序缺陷的识别过程,以及通过提高核心工作电压和调整时钟占空比的组合措施成功缓解该问题,从而避免了昂贵的工艺变更或重新设计,并保障了 ATLAS ITk 探测器模块的持续生产。

原作者: B. Ashmanskas, J. Botte, J. R. Dandoy, J. Dopke, N. Dressnandt, B. J. Gallop, J. J. John, P. T. Keener, T. Koffas, J. Kroll, R. P. McGovern, M. F. Newcomer, B. J. Norman, P. W. Phillips, C. Sawyer, R.
发布于 2026-05-22
📖 1 分钟阅读🧠 深度阅读

原作者: B. Ashmanskas, J. Botte, J. R. Dandoy, J. Dopke, N. Dressnandt, B. J. Gallop, J. J. John, P. T. Keener, T. Koffas, J. Kroll, R. P. McGovern, M. F. Newcomer, B. J. Norman, P. W. Phillips, C. Sawyer, R. Scouten, P. Vicente Leitao, M. Warren

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

以下是用简单语言和日常类比对这篇论文的解读。

那颗“星”芯片结巴的故事

想象一下,CERN 的 ATLAS 实验就像一台超高速相机,试图拍摄以接近光速碰撞的粒子。为此,它需要数百万个微小的、超级智能的传感器,称为ABCStar 芯片。这些芯片是相机的“眼睛”,负责从硅条读取数据并将其发送到中央计算机。

在相机建成之前,工程师必须制造这些芯片。他们原本预计约**90%的芯片能完美工作。然而,在测试期间,他们发现了一个可怕的问题:在某些批次的芯片中,只有2%**能正常工作,其余的都失败了。

谜团:一个“经硅验证”的幽灵

工程师们感到困惑。这些失败的芯片并非以某种怪异的方式损坏;它们几乎通过了所有测试。它们能够读取模拟信号、处理电源并执行复杂的数学运算。它们唯一失败的是一个特定的数字测试,该测试检查它们是否能正确存储和检索数据。

数据存储在SRAM 块中(可以将其想象为芯片的短期记忆笔记本)。这些特定的存储块此前已在许多其他成功的芯片中使用过。在行业内,这被称为"经硅验证"。这就像使用一种已在数百万辆汽车上应用且从未发生过爆胎的轮胎设计。每个人都假设这些轮胎是完美的。

工程师们怀疑是存储器本身出了问题,但他们错了。存储器是完好的。问题出在告诉存储器何时写入、何时读取的交通控制器(即“胶水逻辑”)上。

根本原因:时序不匹配

这里有一个类比:想象一场接力赛,一名选手(数据)必须在哨声吹响的精确时刻将接力棒交给队友(存储器)。

  • 计划:哨声吹响,选手冲刺,队友接住接力棒。
  • 现实:在某些芯片中,选手比工程师预想的要稍慢一些。因为“经硅验证”的存储器模型是基于旧工具构建的,它们没有考虑到在这个特定工厂批次中,选手可能会稍微迟缓。
  • 结果:队友试图接棒时太早了,选手还没到。接力棒被掉落了。用芯片术语来说,这就是位翻转时序错误。数据被破坏了。

这种情况主要发生在硅片的边缘(就像披萨的边缘),那里的制造工艺略有不均匀,使得“选手”变得更加迟缓。

调查:寻找解决方案

团队必须找到一种方法来解决这个问题,既不能扔掉价值数百万美元的芯片,也不能从头重新设计整个系统(那将需要数年时间)。他们测试了两个主要思路:

1. “速度提升”(增加电压)

如果选手跑得慢,就给他们打一针“咖啡因”。

  • 解决方案:他们将芯片数字大脑的供电电压从1.20 伏特提高到 1.25 伏特
  • 效果:更高的电压使晶体管(即“选手”)移动得更快。突然间,选手的速度足以按时接住接力棒。
  • 结果:此前失败的芯片(良率仅为 2%)突然有 80% 能够正常工作。

2. “更长的停顿”(时钟占空比)

如果选手仍然有点慢,就告诉队友在尝试接棒前多等一会儿。

  • 解决方案:芯片依靠来回跳动的时钟信号运行。工程师们发现,时钟跳动的“高”部分(逻辑激活时)太短了。他们在电路板上物理交换了两根导线,使“高”部分持续更长时间。
  • 效果:这为逻辑电路提供了更多时间来稳定并做好准备,然后存储器才尝试抓取数据。
  • 结果:这增加了一层额外的安全保障,确保即使芯片稍微老化或变冷,也不会失败。

“如果”场景:改变工厂

团队还与工厂(代工厂)讨论了改变制造工艺以使晶体管自然更快的可能性。

  • 问题:他们已经用“慢速”工艺制造了 300 片晶圆。你无法把烤好的蛋糕变回生面团。如果现在改变工艺,他们就必须报废所有现有的晶圆并重新开始,这将耗费巨资并延误项目。
  • 决定:他们在新的实验晶圆上测试了“快速”晶体管。虽然它们能工作,但引起了其他副作用(例如改变了模拟传感器的灵敏度)。
  • 裁决:由于“速度提升”(电压)和“更长的停顿”(导线交换)在现有芯片上完美奏效,他们决定改变工厂工艺。仅仅调整芯片的使用方式更便宜、更快且更安全。

最终结果

团队证明,只需稍微调高电压并交换两根导线,就能挽救整个项目。

  • 良率:他们从灾难(2% 正常工作)转变为成功(超过 80% 正常工作)。
  • 功耗:额外的电压仅消耗了极少量的额外功率(约增加 3%),探测器的冷却系统可以轻松应对。
  • 辐射:他们在重辐射环境下(就像在粒子对撞机中会面临的那样)测试了芯片,发现修复方案仍然有效。

重要教训

论文最后对所有工程师提出了一个至关重要的教训:不要假设“已验证”就是完美的

仅仅因为某个组件(如存储块)过去曾正常工作,并不意味着它在每个新设计中都能完美运行,尤其是当它与新的制造变化相结合时。团队认识到,即使是“经硅验证”的模块,也需要用新项目的特定工具和条件进行重新检查。如果他们更早这样做,或许就能更早发现问题。

多亏了这项侦探工作,ATLAS ITk 探测器现在正使用这些芯片进行组装,预计它们将在整个实验期间可靠运行。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →