Identification and mitigation of memory block timing issue in ITk ABCStar during ASIC production

Dit artikel beschrijft de identificatie van een timingfout in de ABCStar-ASIC die de productiewaarde bedreigde, en de succesvolle mitigatie van dit probleem door een combinatie van het verhogen van de kerndrijvingspanning en het aanpassen van de kloktijdsduur, waardoor kostbare procesaanpassingen of herontwerpen werden vermeden en de voortzetting van de productie van ATLAS ITk-detektormodules mogelijk werd gemaakt.

Oorspronkelijke auteurs: B. Ashmanskas, J. Botte, J. R. Dandoy, J. Dopke, N. Dressnandt, B. J. Gallop, J. J. John, P. T. Keener, T. Koffas, J. Kroll, R. P. McGovern, M. F. Newcomer, B. J. Norman, P. W. Phillips, C. Sawyer, R.
Gepubliceerd 2026-05-22
📖 6 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: B. Ashmanskas, J. Botte, J. R. Dandoy, J. Dopke, N. Dressnandt, B. J. Gallop, J. J. John, P. T. Keener, T. Koffas, J. Kroll, R. P. McGovern, M. F. Newcomer, B. J. Norman, P. W. Phillips, C. Sawyer, R. Scouten, P. Vicente Leitao, M. Warren

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het verhaal van de "Ster"-chip die stotterde

Stel je het ATLAS-experiment bij CERN voor als een enorme, supersnelle camera die probeert foto's te maken van deeltjes die met bijna de lichtsnelheid met elkaar botsen. Om dit te doen, heeft het miljoenen kleine, superslimme sensoren nodig die ABCStar-chips heten. Deze chips zijn de "ogen" van de camera; ze lezen gegevens van siliciumstrips en sturen die naar een centrale computer.

Voordat de camera gebouwd kon worden, moesten ingenieurs deze chips fabriceren. Ze verwachtten dat ongeveer 90% van de chips perfect zou werken. Tijdens de tests ontdekten ze echter een angstaanjagend probleem: bij sommige batches chips werkte slechts 2%. De rest faalde.

Het mysterie: Een "silicon-proven"-geest

De ingenieurs waren verward. De falende chips waren niet op een vreemde manier kapot; ze slaagden bijna elke test. Ze konden analoge signalen lezen, stroom hanteren en complexe wiskunde uitvoeren. Het enige waar ze in faalden, was een specifieke digitale test die controleerde of ze gegevens correct konden onthouden en terugroepen.

De gegevens werden opgeslagen in SRAM-blokken (denk hierbij aan de korte-termijngeheugennotitieboekjes van de chip). Deze specifieke geheugens blokken waren eerder in vele andere succesvolle chips gebruikt. In de industrie noemt men dit "silicon-proven". Het is alsof je een bandontwerp gebruikt dat op miljoenen auto's heeft gezeten zonder ooit een klapband te hebben gehad. Iedereen ging ervan uit dat deze banden perfect waren.

De ingenieurs vermoedden dat het geheugen zelf kapot was, maar ze hadden het mis. Het geheugen was in orde. Het probleem lag bij de verkeersregelaar (de "lijmlogica") die het geheugen vertelde wanneer er geschreven moest worden en wanneer er gelezen moest worden.

De oorzaak: Een timingfout

Hier is de analogie: Stel je een estafette voor waarbij een loper (de gegevens) een stok moet overhandigen aan een teamgenoot (het geheugen) op het exacte moment dat een fluitje blaast.

  • Het plan: Het fluitje blaast, de loper sprint en de teamgenoot vangt de stok.
  • De realiteit: Bij sommige van deze chips was de loper iets trager dan de ingenieurs dachten. Omdat de "silicon-proven"-geheugenmodellen gebaseerd waren op oudere tools, hielden ze geen rekening met het feit dat de loper in deze specifieke fabrieksbatch misschien een beetje traag was.
  • Het resultaat: De teamgenoot probeerde de stok te vangen te vroeg. De loper was er nog niet. De stok viel. In chiptermen is dit een bitflip of een timingfout. De gegevens werden beschadigd.

Dit gebeurde voornamelijk aan de randen van de siliciumwafers (zoals de randen van een pizza), waar het fabricageproces iets minder uniform is, waardoor de "lopers" nog trager werden.

Het onderzoek: De oplossing vinden

Het team moest een manier vinden om dit op te lossen zonder miljoenen dollars aan chips weg te gooien of het hele ontwerp vanaf nul opnieuw te maken (wat jaren zou kosten). Ze testten twee hoofdideeën:

1. De "snelheidsboost" (verhoging van de spanning)

Als de loper traag is, geef hem dan een cafeïneschot.

  • De oplossing: Ze verhoogden de elektrische spanning die aan het digitale brein van de chip werd geleverd van 1,20 Volt naar 1,25 Volt.
  • Het effect: Hogere spanning zorgt ervoor dat de transistors (de lopers) sneller bewegen. Plotseling was de loper snel genoeg om de stok op tijd te vangen.
  • Het resultaat: Chips die eerder faalden (2% opbrengst) werkten plotseling in 80% van de gevallen.

2. De "langere pauze" (clock duty cycle)

Als de loper nog steeds een beetje traag is, zeg dan tegen de teamgenoot dat hij iets langer moet wachten voordat hij probeert de stok te vangen.

  • De oplossing: De chip werkt op een kloksignaal dat heen en weer tikt. De ingenieurs merkten dat het "hoge" deel van de tik (wanneer de logica actief is) te kort was. Ze wisselden fysiek twee draden op het printplaatje om zodat het "hoge" deel langer duurde.
  • Het effect: Dit gaf de logica meer tijd om zich te stabiliseren en klaar te maken voordat het geheugen probeerde de gegevens te grijpen.
  • Het resultaat: Dit voegde een extra veiligheidslaag toe, zodat de chips niet zouden falen, zelfs niet als ze iets ouder of kouder werden.

Het "wat als"-scenario: De fabriek veranderen

Het team sprak ook met de fabriek (de foundry) over het veranderen van het fabricageproces om de transistors van nature sneller te maken.

  • Het probleem: Ze hadden al 300 wafers gemaakt met het "trage" proces. Je kunt een cake niet ongebakken maken. Als ze nu het proces veranderden, zouden ze alle bestaande wafers moeten vernietigen en opnieuw moeten beginnen, wat een fortuin zou kosten en het project zou vertragen.
  • Het besluit: Ze testten "snelle" transistors op nieuwe experimentele wafers. Hoewel ze werkten, veroorzaakten ze andere neveneffecten (zoals het veranderen van de gevoeligheid van de analoge sensoren).
  • Het oordeel: Omdat de "snelheidsboost" (spanning) en de "langere pauze" (wisselen van draden) perfect werkten op de bestaande chips, besloten ze niet het fabrieksproces te veranderen. Het was goedkoper, sneller en veiliger om gewoon aan te passen hoe de chips werden gebruikt.

Het eindresultaat

Het team bewees dat ze het project konden redden door simpelweg de spanning iets omhoog te draaien en twee draden om te wisselen.

  • Opbrengst: Ze gingen van een ramp (2% werkend) naar een succes (meer dan 80% werkend).
  • Vermogen: De extra spanning gebruikte een klein beetje meer stroom (ongeveer 3% meer), wat het koelsysteem van de detector gemakkelijk kon hanteren.
  • Straling: Ze testten de chips onder zware straling (zoals ze die zouden krijgen in de deeltjesversneller) en ontdekten dat de oplossing nog steeds werkte.

De grote les

Het paper eindigt met een cruciale les voor alle ingenieurs: Neem niet aan dat "bewezen" perfect is.

Omdat een component (zoals het geheugenblok) in het verleden werkte, betekent dit niet dat het in elk nieuw ontwerp perfect zal werken, vooral niet wanneer het wordt gecombineerd met nieuwe fabricagevariaties. Het team leerde dat zelfs "silicon-proven"-blokken opnieuw moeten worden gecontroleerd met de specifieke tools en omstandigheden van het nieuwe project. Als ze dit eerder hadden gedaan, hadden ze het probleem misschien eerder ontdekt.

Dankzij dit speurwerk wordt de ATLAS ITk-detector nu met deze chips in elkaar gezet en wordt verwacht dat ze gedurende de levensduur van het experiment betrouwbaar zullen werken.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →