Machine Learning Guided Cooling System Optimization for Data Center

Dit paper presenteert een drie-traps, door fysica geleid machine learning-raamwerk dat, gebaseerd op operationele data van de Frontier-supercomputer, inefficiënties in het koelsysteem identificeert en aantoont dat tot 96% van de overbodige koelenergie veilig kan worden teruggewonnen door geoptimaliseerde instellingen.

Shrenik Jadhav, Zheng Liu

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een datacenter als een enorme, hypermoderne keuken is waar de "chefs" (de supercomputers) de zwaarste maaltijden ter wereld bereiden. Deze maaltijden zijn de berekeningen die nodig zijn voor wetenschappelijke ontdekkingen. Maar er is een groot probleem: deze chefs worden zo heet dat ze bijna verbranden. Om ze koel te houden, staat er een gigantisch airco-systeem dat 24 uur per dag draait.

Het probleem is dat dit airco-systeem soms te hard werkt. Het is alsof je de airco op de hoogste stand zet terwijl je alleen maar een glas water drinkt. Dat kost veel stroom en geld, terwijl het niet nodig is.

De auteurs van dit artikel, Shrenik Jadhav en Zheng Liu, hebben een slimme manier bedacht om dit te fixen zonder dat de "chefs" ooit oververhit raken. Ze noemen hun methode een "Machine Learning Gids voor Koeling".

Hier is hoe hun plan werkt, uitgelegd in drie simpele stappen:

Stap 1: De Slimme Voorspeller (De "Digitale Tweeling")

Stel je voor dat je een robot bouwt die precies weet hoe het airco-systeem zou moeten werken. Deze robot kijkt naar drie dingen:

  1. Hoe hard de computers werken (de "honger" van de chefs).
  2. Hoe warm het water is dat de warmte afvoert.
  3. Hoe hard de pompen draaien.

De robot leert van een heel jaar aan data van de Frontier-supercomputer (de krachtigste computer ter wereld). Hij leert een simpele regel: "Als de computers minder doen, moet de airco minder hard werken." Maar hij doet dit heel slim: hij zorgt dat zijn voorspelling altijd logisch blijft (bijvoorbeeld: meer warmte betekent nooit minder koeling nodig).

Het resultaat: De robot kan nu precies voorspellen hoeveel stroom het airco-systeem zou moeten verbruiken in elke situatie. Als het echte systeem meer stroom verbruikt dan de robot voorspelt, dan weten we: "Aha! Hier wordt energie verspillen!"

Stap 2: Het Opsporen van de "Sluipkosten"

Nu vergelijken ze het echte verbruik met wat de robot voorspelt. Het is alsof je je energierekening bekijkt en zegt: "Ik heb gisteren 10 euro betaald, maar mijn slimme app zegt dat ik er maar 8 euro voor had moeten betalen." Die 2 euro verschil is verspilde energie.

Ze ontdekten dat Frontier ongeveer 85 MWh aan energie per jaar verspilde. Dat klinkt misschien niet als een enorm bedrag, maar het is genoeg om duizenden huishoudens een dag van stroom te voorzien. Wat ze ook zagen, is dat deze verspilling niet gelijkmatig verdeeld is. Het gebeurt vooral op specifieke momenten:

  • In de winter (wanneer het koud is buiten, maar het systeem toch te hard werkt).
  • 's Ochtends vroeg (wanneer de computers rustig zijn, maar de pompen nog op volle toeren draaien).
  • Op dagen met weinig werk.

Stap 3: De Veilige "Micro-Prikjes"

Dit is het meest creatieve deel. In plaats van het hele systeem te herbouwen (wat duur en riskant is), bedachten ze een manier om heel kleine, veilige aanpassingen te doen.

Stel je voor dat je een auto hebt die te hard rijdt. Je hoeft niet de motor te vervangen; je hoeft alleen maar je voet een heel klein beetje van het gaspedaal te halen.

De computer doet precies dat:

  • Verhoog de temperatuur: "Laten we het koude water dat naar de computers gaat, maar 0,2 graden warmer maken." Dat kost bijna niets, maar de pomp hoeft dan minder hard te werken.
  • Verlaag de stroom: "Laten we de waterstroom in één van de drie leidingen met 5% vertragen."

De Veiligheidscontrole:
Voordat ze deze veranderingen toepassen, laat de computer ze door een "veiligheidscontrole" gaan. De regels zijn streng:

  • Mag de computer niet te heet worden? (Nee, dat mag niet).
  • Is het water nog steeds koud genoeg? (Ja).
  • Is de verandering klein genoeg om veilig te zijn? (Ja).

Als alles groen licht geeft, zegt de computer: "Dit is een veilige aanpassing die we kunnen doen."

Het Eindresultaat

Door deze kleine, veilige aanpassingen te maken op de juiste momenten, kunnen ze tot 96% van de gevonden verspilling terugwinnen.

  • In de beste scenario's (als we alleen kijken naar wat fysiek mogelijk is) kunnen ze ongeveer 82 MWh per jaar besparen.
  • In een heel conservatief scenario (waar ze alleen de allerveiligste, kleinste veranderingen toestaan), besparen ze toch nog 13 tot 15 MWh per jaar.

Waarom is dit belangrijk?

Dit artikel laat zien dat je niet altijd grote, dure renovaties nodig hebt om energie te besparen. Soms is het antwoord: "Kijk goed naar je data, leer van je verleden, en maak heel kleine, slimme aanpassingen."

Het is alsof je merkt dat je de lichten in je huis laat branden als je de kamer uitgaat. Je hoeft geen nieuwe lampen te kopen; je hoeft alleen maar je gewoonte te veranderen. Voor een datacenter van deze omvang betekent die "gewoonte" echter miljoenen euro's aan besparing en minder CO2-uitstoot, terwijl de supercomputer gewoon blijft werken zoals hij altijd deed.

Kort samengevat: Ze hebben een slimme robot gebouwd die de koeling van een supercomputer in de gaten houdt, de verspilling opspoort, en dan heel voorzichtig de knoppen draait om energie te besparen, zonder dat er ooit iets misgaat.