Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Dit artikel introduceert een uitgebreid benchmarkkader voor multi-agent reinforcement learning in de CityLearn-omgeving, waarbij wordt vastgesteld dat decentrale training en uitvoering (DTDE) samen met tijdsafhankelijk leren superieure prestaties leveren op diverse duurzaamheids- en robuustheidskpi's voor stedelijke energiesystemen.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een stad een enorm, levend organisme is. Elke woning, elk kantoor en elke fabriek is een cel in dit organisme. Deze cellen hebben allemaal hun eigen energiebehoefte: ze moeten koelen, verwarmen en apparaten laten draaien. Maar er is een probleem: we willen dat deze stad groen, goedkoop en stabiel werkt, terwijl de zon soms schijnt en soms niet, en de mensen soms veel en soms weinig stroom gebruiken.

Deze paper is als een grote test voor slimme computerprogramma's (kunstmatige intelligentie) die proberen dit hele energienetwerk te besturen. De onderzoekers van InstaDeep hebben gekeken welke "trainer" het beste werkt om een team van slimme agents (één voor elk gebouw) te leren hoe ze samen moeten werken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Speelveld: De "CityLearn" Stad

Stel je een wijk voor met zes huizen. Elk huis heeft:

  • Een koelkast (voor koeling).
  • Een boiler (voor warm water).
  • Een batterij (om stroom op te slaan).
  • Zonnepanelen (die stroom maken als de zon schijnt).

Elk huis moet beslissen: Zal ik nu stroom gebruiken, of in de batterij stoppen? Zal ik de koelkast harder laten draaien of even rusten? Als ze dit allemaal zelfstandig doen, kan het chaos worden. Als ze te veel stroom tegelijk vragen, crasht het net. Als ze te veel batterijen leegtrekken, gaan ze kapot.

2. De Spelers: De Slimme Trainers (Algoritmes)

De onderzoekers hebben zes verschillende "trainers" getest. Je kunt ze zien als verschillende soorten coaches voor een sportteam:

  • De Onafhankelijke Spelers (DTDE): Denk aan een team waar elke speler alleen naar zijn eigen spiegel kijkt. Ze leren alleen van hun eigen ervaringen, zonder dat de trainer de hele groep tegelijk ziet.
    • Voorbeeld: IPPO en SAC.
  • De Centraal Getrainde Spelers (CTDE): Denk aan een coach die tijdens de training op een groot scherm ziet wat iedereen doet, zodat hij de hele groep kan corrigeren. Maar tijdens de wedstrijd (in het echt) moet elke speler weer alleen beslissingen nemen.
    • Voorbeeld: MAPPO.
  • De Geheugen-Trainers (Recurrent): Sommige trainers leren de spelers niet alleen naar het nu te kijken, maar ook naar het verleden. Ze hebben een geheugen. Ze weten: "Gisteren was het warm, dus vandaag is het waarschijnlijk ook warm."
    • Voorbeeld: REC-IPPO en REC-SAC.

3. De Test: Wat is een goede prestatie?

In plaats van alleen te kijken naar "wie heeft de laagste energierekening?", hebben de onderzoekers naar veel meer dingen gekeken. Het is alsof je een auto niet alleen test op snelheid, maar ook op:

  • Comfort: Is het in huis niet te koud of te warm?
  • Stabiliteit: Schiet het stroomverbruik niet plotseling omhoog (zoals een schok in de auto)?
  • Duurzaamheid: Hoeveel CO2 wordt er uitgestoten?
  • Batterijleven: Worden de batterijen niet te snel leeggetrokken (wat ze kapot maakt)?
  • Teamwerk: Draagt elk huis evenveel bij, of doet één huis het werk voor de rest?

4. De Grote Ontdekkingen (De Verdict)

A. De "Onafhankelijke" winnaar (IPPO)
De winnaar van de algemene ranglijst was IPPO.

  • De Analogie: Stel je voor dat je een groep mensen in een donkere kamer zet. Als je ze allemaal apart laat oefenen zonder dat ze elkaar storen, worden ze vaak stabieler en betrouwbaarder dan een groep die constant probeert met elkaar te overleggen.
  • IPPO was het meest consistent. Het maakte minder fouten en deed het zelfs goed in de slechtste scenario's. Het was de "veilige, betrouwbare" keuze.

B. Het geheugen is goud waard (voor bepaalde taken)
De trainers met een geheugen (Recurrent) waren veel beter in het plannen van de batterijen.

  • De Analogie: Een batterij is als een fles water. Als je hem elke dag helemaal leegdrinkt en weer volmaakt, gaat hij snel kapot. Een trainer met geheugen ziet: "Ah, morgen is het zonnig, dus ik drink nu niet alles op, maar bewaar een beetje voor straks."
  • Hierdoor duurden de batterijen langer en waren de schommelingen in stroomverbruik veel rustiger.

C. De "Centrale Coach" (MAPPO) is riskant
De centrale trainer (MAPPO) kon soms fantastisch presteren (de beste scores in de beste runs), maar was ook erg onstabiel.

  • De Analogie: Het is als een dirigent die perfect kan leiden als iedereen meedoet, maar als één muzikant een noot mist, valt het hele orkest in de war. Het was te gevoelig voor toeval.

D. Niemand is een "luie agent"
Een belangrijke ontdekking was dat er geen "luie agenten" waren.

  • De Analogie: In een teamwerkproject is het vaak zo dat één persoon het werk doet en de rest niets. Hier bleek dat elk huis even hard werkte. Als je één huis uit het systeem haalde, viel het systeem niet in elkaar. Dit maakt de oplossing heel robuust voor de echte wereld, waar apparaten soms stuk gaan of de verbinding verbroken wordt.

5. Waarom is dit belangrijk voor jou?

Deze paper laat zien dat we niet hoeven te wachten op een super-complex systeem dat alles perfect regelt. Een systeem waar elke woning slim en zelfstandig is, maar wel rekening houdt met het verleden (geheugen), werkt het beste.

Het betekent dat we in de toekomst:

  1. Minder stroomuitval zullen hebben (want de schommelingen zijn rustiger).
  2. Langere levensduur voor onze thuisbatterijen (want ze worden niet misbruikt).
  3. Een groenere stad (want we gebruiken de zonne-energie slimmer).

Kortom: De onderzoekers hebben bewezen dat een team van slimme, zelfstandige buren die hun eigen batterijen slim beheren, een betere stad maakt dan één grote, centrale controller die alles probeert te regelen.