Machine Learning Guided Cooling System Optimization for Data Center

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een datacenter als een enorme, hypermoderne keuken is waar de "chefs" (de supercomputers) de zwaarste maaltijden ter wereld bereiden. Deze maaltijden zijn de berekeningen die nodig zijn voor wetenschappelijke ontdekkingen. Maar er is een groot probleem: deze chefs worden zo heet dat ze bijna verbranden. Om ze koel te houden, staat er een gigantisch airco-systeem dat 24 uur per dag draait.

Het probleem is dat dit airco-systeem soms te hard werkt. Het is alsof je de airco op de hoogste stand zet terwijl je alleen maar een glas water drinkt. Dat kost veel stroom en geld, terwijl het niet nodig is.

De auteurs van dit artikel, Shrenik Jadhav en Zheng Liu, hebben een slimme manier bedacht om dit te fixen zonder dat de "chefs" ooit oververhit raken. Ze noemen hun methode een "Machine Learning Gids voor Koeling".

Hier is hoe hun plan werkt, uitgelegd in drie simpele stappen:

Stap 1: De Slimme Voorspeller (De "Digitale Tweeling")

Stel je voor dat je een robot bouwt die precies weet hoe het airco-systeem zou moeten werken. Deze robot kijkt naar drie dingen:

Hoe hard de computers werken (de "honger" van de chefs).
Hoe warm het water is dat de warmte afvoert.
Hoe hard de pompen draaien.

De robot leert van een heel jaar aan data van de Frontier-supercomputer (de krachtigste computer ter wereld). Hij leert een simpele regel: "Als de computers minder doen, moet de airco minder hard werken." Maar hij doet dit heel slim: hij zorgt dat zijn voorspelling altijd logisch blijft (bijvoorbeeld: meer warmte betekent nooit minder koeling nodig).

Het resultaat: De robot kan nu precies voorspellen hoeveel stroom het airco-systeem zou moeten verbruiken in elke situatie. Als het echte systeem meer stroom verbruikt dan de robot voorspelt, dan weten we: "Aha! Hier wordt energie verspillen!"

Stap 2: Het Opsporen van de "Sluipkosten"

Nu vergelijken ze het echte verbruik met wat de robot voorspelt. Het is alsof je je energierekening bekijkt en zegt: "Ik heb gisteren 10 euro betaald, maar mijn slimme app zegt dat ik er maar 8 euro voor had moeten betalen." Die 2 euro verschil is verspilde energie.

Ze ontdekten dat Frontier ongeveer 85 MWh aan energie per jaar verspilde. Dat klinkt misschien niet als een enorm bedrag, maar het is genoeg om duizenden huishoudens een dag van stroom te voorzien. Wat ze ook zagen, is dat deze verspilling niet gelijkmatig verdeeld is. Het gebeurt vooral op specifieke momenten:

In de winter (wanneer het koud is buiten, maar het systeem toch te hard werkt).
's Ochtends vroeg (wanneer de computers rustig zijn, maar de pompen nog op volle toeren draaien).
Op dagen met weinig werk.

Stap 3: De Veilige "Micro-Prikjes"

Dit is het meest creatieve deel. In plaats van het hele systeem te herbouwen (wat duur en riskant is), bedachten ze een manier om heel kleine, veilige aanpassingen te doen.

Stel je voor dat je een auto hebt die te hard rijdt. Je hoeft niet de motor te vervangen; je hoeft alleen maar je voet een heel klein beetje van het gaspedaal te halen.

De computer doet precies dat:

Verhoog de temperatuur: "Laten we het koude water dat naar de computers gaat, maar 0,2 graden warmer maken." Dat kost bijna niets, maar de pomp hoeft dan minder hard te werken.
Verlaag de stroom: "Laten we de waterstroom in één van de drie leidingen met 5% vertragen."

De Veiligheidscontrole:
Voordat ze deze veranderingen toepassen, laat de computer ze door een "veiligheidscontrole" gaan. De regels zijn streng:

Mag de computer niet te heet worden? (Nee, dat mag niet).
Is het water nog steeds koud genoeg? (Ja).
Is de verandering klein genoeg om veilig te zijn? (Ja).

Als alles groen licht geeft, zegt de computer: "Dit is een veilige aanpassing die we kunnen doen."

Het Eindresultaat

Door deze kleine, veilige aanpassingen te maken op de juiste momenten, kunnen ze tot 96% van de gevonden verspilling terugwinnen.

In de beste scenario's (als we alleen kijken naar wat fysiek mogelijk is) kunnen ze ongeveer 82 MWh per jaar besparen.
In een heel conservatief scenario (waar ze alleen de allerveiligste, kleinste veranderingen toestaan), besparen ze toch nog 13 tot 15 MWh per jaar.

Waarom is dit belangrijk?

Dit artikel laat zien dat je niet altijd grote, dure renovaties nodig hebt om energie te besparen. Soms is het antwoord: "Kijk goed naar je data, leer van je verleden, en maak heel kleine, slimme aanpassingen."

Het is alsof je merkt dat je de lichten in je huis laat branden als je de kamer uitgaat. Je hoeft geen nieuwe lampen te kopen; je hoeft alleen maar je gewoonte te veranderen. Voor een datacenter van deze omvang betekent die "gewoonte" echter miljoenen euro's aan besparing en minder CO2-uitstoot, terwijl de supercomputer gewoon blijft werken zoals hij altijd deed.

Kort samengevat: Ze hebben een slimme robot gebouwd die de koeling van een supercomputer in de gaten houdt, de verspilling opspoort, en dan heel voorzichtig de knoppen draait om energie te besparen, zonder dat er ooit iets misgaat.

Each language version is independently generated for its own context, not a direct translation.

Titel: Machine Learning-geleide optimalisatie van koelsystemen voor datacenters

Auteurs: Shrenik Jadhav en Zheng Liu (Universiteit van Michigan-Dearborn)
Onderwerp: Optimalisatie van de koeling van de Frontier-exascale supercomputer.

1. Het Probleem

Moderne High-Performance Computing (HPC)-systemen, zoals de Frontier-supercomputer, verbruiken enorme hoeveelheden elektriciteit, waarvan bijna alle energie uiteindelijk als warmte moet worden afgevoerd. Hoewel deze faciliteiten vaak een uitstekende Power Usage Effectiveness (PUE) van ongeveer 1,05 hebben, blijft het absolute energieverbruik van de koelinfrastructuur (pompen, ventilatoren, warmtewisselaars) zeer hoog.

De kernuitdaging is dat bestaande koelsystemen inefficiënties vertonen die leiden tot overbodig energieverbruik, vooral tijdens periodes met een lage IT-belasting. Operators zijn vaak terughoudend om handmatig instellingen (zoals aanvoertemperaturen of debieten) aan te passen omdat:

De veilige operationele kaders niet altijd duidelijk zijn.
De potentiële besparingen klein zijn en kunnen verdwijnen in dagelijkse meetruis.
Er een risico bestaat op thermische instabiliteit.

Er is behoefte aan een transparante, fysica-gestuurde methode om micro-inefficiënties in historische data te identificeren en veilige, kwantificeerbare aanpassingen voor te stellen zonder het live-systeem direct te riskeren.

2. Methodologie

De auteurs presenteren een drie-traps raamwerk dat gebruikmaakt van machine learning, gefundeerd op fysica, om het verbruik van "accessory power" (energie voor koelinfrastructuur) te modelleren en te optimaliseren. De analyse is gebaseerd op één jaar operationele data (2023) van de Frontier-supercomputer met een resolutie van 10 minuten.

Fase 1: Fysica-gestuurde Surrogaatmodel (Digital Twin)

Doel: Het trainen van een model om het accessory power-verbruik ( $P_{acc}$ ) te voorspellen op basis van IT-belasting, koelvloeistoftemperaturen en debieten.
Model: Er wordt gekozen voor LightGBM (Light Gradient Boosting Machine) vanwege de snelheid, interpretatie en native ondersteuning voor monotoniteitsbeperkingen.
Fysica-beperkingen: Het model wordt geforceerd om fysieke wetten te respecteren (bijv. hogere warmtelast of hogere debieten mogen nooit leiden tot minder koelvermogen).
Features: Inputvariabelen omvatten IT-power, aanvoertemperatuur, retourtemperaturen per subloop, debieten, en afgeleide variabelen zoals temperatuurverschillen en onbalansindices.
Resultaat: Een kalibratie-model dat $P_{acc}$ voorspelt met een zeer hoge nauwkeurigheid (MAE van 0,026 MW).

Fase 2: Identificatie van Overbodig Verbruik (Excess Monitoring)

Methode: Het model fungeert als een "fysiek consistente basislijn". Voor elk tijdstip wordt het daadwerkelijke verbruik vergeleken met het voorspelde verbruik.
Berekening: Het verschil (residu) waar het werkelijke verbruik hoger is dan het voorspelde verbruik, wordt gedefinieerd als "overbodige koelenergie" ( $P_{excess}$ ).
Output: Een tijdreeks van overbodige energie (MWh) en kosten, geaggregeerd per uur, dag, maand en operationeel regime.

Fase 3: Contrafactuele Evaluatie en Veiligheidscontroles

Doel: Bepalen hoeveel van de overbodige energie kan worden teruggewonnen door kleine, veilige aanpassingen aan de setpoints.
Aanpak: Het systeem simuleert "wat-als"-scenario's (contrafactuelen) waarbij de aanvoertemperatuur ( $T_{sup}$ ) licht wordt verhoogd en de debieten per subloop licht worden aangepast.
Veiligheidskaders (Guardrails): Elke voorgestelde actie moet voldoen aan strikte beperkingen:
- PUE mag nooit onder de 1,0 zakken.
- De totale warmteafvoer moet behouden blijven (minimaal 97% van de basis).
- Temperatuurverhogingen en debietverlagingen mogen binnen bewezen operationele grenzen blijven.
- Acties moeten binnen de verdeling van de trainingsdata liggen (in-distribution).
Filtering: Een "reviewer-diagnostieklaag" filtert acties die te klein zijn om significant te zijn (onder de modelfoutmarge) of die te vaak wisselen (hysteresis).

3. Belangrijkste Resultaten

Modelnauwkeurigheid: Het LightGBM-surrogaatmodel presteert uitstekend met een Mean Absolute Error (MAE) van 0,026 MW en een R² van 0,79. Voor 98,7% van de teststeekproeven ligt de voorspelde PUE binnen ±0,01 van de gemeten waarde.
Gedetecteerde Inefficiëntie: Er werd ongeveer 85,2 MWh aan jaarlijks overbodige koelenergie geïdentificeerd. Dit komt neer op een geschatte kostenbesparing van ongeveer $5.100 (bij een tarief van $60/MWh).
Potentiële Besparing:
- Theoretisch maximum: Onder strikte fysica-beperkingen (zonder extra filters) kan tot 126,8 MWh worden bespaard.
- Gecapiteerd maximum: Wanneer de besparing wordt begrensd door de in Fase 2 geïdentificeerde overbodige energie, kan 82,1 MWh (96% van de inefficiëntie) worden teruggewonnen.
- Conservatieve schatting: Na toepassing van strenge reviewersfilters (voor operationaliteit en statistische significantie) blijft er een betrouwbare besparing van 13,4 MWh per jaar over.
Aard van de Aanpassingen: De succesvolle acties zijn zeer subtiel:
- De gemiddelde verhoging van de aanvoertemperatuur is slechts 0,12°C.
- Debietverlagingen zijn minimaal (meestal >95% van het basisdebiet).
- De besparingen zijn geconcentreerd in specifieke periodes (wintermaanden zoals januari en december, en late zomer).

4. Bijdragen en Significantie

Transparantie en Vertrouwen: In tegenstelling tot "black-box" deep reinforcement learning, biedt dit raamwerk interpreteerbare, fysica-gestuurde aanbevelingen. Dit maakt het veiliger voor operators om de suggesties te vertrouwen in kritieke infrastructuur.
Micro-optimalisatie: Het bewijst dat zelfs in een reeds zeer efficiënt datacenter (PUE ~1,05) nog significante besparingen mogelijk zijn door micro-aanpassingen, in plaats van grote infrastructuurveranderingen.
Veiligheid eerst: De integratie van strikte "guardrails" en contrafactuele evaluatie zorgt ervoor dat voorgestelde optimalisaties nooit de thermische veiligheid van de supercomputer in gevaar brengen.
Schaalbaarheid: Het raamwerk is ontworpen om aanpasbaar te zijn aan andere vloeistofgekoelde datacenters met specifieke herschaling, en kan dienen als basis voor Model Predictive Control (MPC) systemen.

Conclusie

De studie demonstreert dat een combinatie van machine learning en fysica-gestuurde beperkingen effectief kan worden gebruikt om micro-inefficiënties in koelsystemen te detecteren en te elimineren. Zelfs in een toonaangevende faciliteit als Frontier kunnen veilige, kleine instelpunt-aanpassingen leiden tot meetbare energiewinst en kostenreductie, zonder de betrouwbaarheid van de supercomputer te compromitteren. De aanpak biedt een praktische route naar kwantificeerbare duurzaamheid in HPC-faciliteiten.