A monitoring system for collecting and aggregating metrics from distributed clouds

Dieser Beitrag stellt ein Monitoring-System vor, das Metriken von verteilten Clouds auf Knoten-, Container- und Anwendungsebene sammelt, aggregiert und über verschiedene APIs sowie einen Streaming-Dienst für eine umfassende Systemübersicht bereitstellt.

Tamara Ranković, Mateja Rilak, Janko Rakonjac, Miloš Simić

Veröffentlicht 2026-03-06
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, das Internet ist nicht mehr nur ein riesiges, zentrales Rechenzentrum in einer fernen Stadt, sondern eher wie ein globales Netzwerk von kleinen, mobilen Werkstätten, die überall dort entstehen, wo gerade Arbeit anfällt. Das nennen die Autoren „Distributed Cloud" (Verteilte Wolke).

Wenn Sie in einer solchen Werkstatt (z. B. in einem autonomen Auto oder einer Fabrikhalle) arbeiten, brauchen Sie sofortige Ergebnisse. Sie können nicht warten, bis Daten durch die halbe Welt geschickt werden. Aber wie behält man den Überblick über hunderte dieser kleinen, sich ständig verändernden Werkstätten? Wie weiß man, ob eine Maschine überhitzt oder ob ein Container voll ist?

Genau dafür haben die Autoren dieses Papiers ein intelligentes Überwachungssystem entwickelt. Hier ist die Erklärung, wie es funktioniert, mit ein paar einfachen Bildern:

1. Das Problem: Der „Blinde Fleck"

Stellen Sie sich vor, Sie sind der Chef einer Firma, die tausende mobile Filialen betreibt. Jede Filiale hat ihre eigenen Mitarbeiter, Maschinen und Kunden. Wenn Sie nicht sehen können, was in den Filialen passiert, können Sie keine guten Entscheidungen treffen.

  • Die Herausforderung: Diese Filialen (die „Distributed Clouds") kommen und gehen. Manchmal sind sie voll, manchmal leer. Die Hardware ist oft klein und sparsam (wie ein Laptop, kein riesiger Server). Ein schweres Überwachungssystem würde sie nur erdrücken.

2. Die Lösung: Ein Team von „Kuriere" und ein „Zentralbüro"

Das System der Autoren funktioniert wie ein gut organisiertes Logistikunternehmen:

  • Auf der Ebene der Filiale (Die Knotenpunkte):
    In jeder kleinen Werkstatt läuft ein Bot (der „Agent"). Dieser Bot ist wie ein flinker Kellner, der ständig aufpasst:

    • Er schaut auf die Maschinen (Temperatur, Stromverbrauch).
    • Er schaut auf die Arbeitsplätze (Container, also die isolierten Bereiche, in denen Programme laufen).
    • Er schaut auf die Aufgaben (Anwendungsmetriken, z. B. wie viele Bestellungen pro Sekunde).

    Der Kellner sammelt diese Informationen nicht sofort weg, sondern legt sie kurz auf einen Zwischentisch (eine temporäre Datei auf dem Gerät), damit er nicht ständig hin- und herlaufen muss.

  • Der „Gesundheits-Check" (Der Taktgeber):
    Das Zentralbüro (die „Control Plane" in der echten Wolke) ruft regelmäßig an: „Hallo, bist du noch da?"

    • Wenn die Werkstatt antwortet, schickt sie nicht nur ein „Ja", sondern packt alle gesammelten Daten vom Kellner in denselben Briefumschlag.
    • Die Metapher: Stellen Sie sich vor, der Kellner bringt dem Chef nicht nur eine Karte mit „Ich bin da", sondern legt auch den Tagesbericht, die Kassenbons und die Temperaturmessung in denselben Umschlag. Das spart Zeit und Energie.
    • Sobald der Chef den Brief bekommt, räumt der Kellner seinen Zwischentisch auf.

3. Die Zentrale: Das „Große Bild"

Im Zentralbüro gibt es drei wichtige Abteilungen:

  1. Der Speicher: Hier landen alle Briefe und werden sicher abgelegt (wie ein riesiges Archiv).
  2. Der Rechner (Processor): Dieser Mitarbeiter schaut sich die Daten an. Er rechnet nicht nur die Daten einer einzelnen Filiale aus, sondern fasst sie zusammen.
    • Beispiel: Statt zu sagen „Filiale A hat 50% CPU genutzt, Filiale B 30%", sagt er: „Unsere gesamte Region nutzt aktuell 40%." Das gibt Ihnen einen schnellen Überblick über den Gesamtzustand.
  3. Der Ausgabeservice (Reader): Dieser Mitarbeiter hält die Tür für alle offen. Er stellt die Daten über verschiedene Wege bereit:
    • Als statische Liste (REST-API): Wenn Sie einmalig nachschauen wollen, wie es gestern um 14:00 Uhr war.
    • Als Live-Stream: Wenn Sie ein Dashboard haben, das sich in Echtzeit aktualisiert, wie ein Wetterradar, das jede Sekunde neue Daten anzeigt.

4. Warum ist das besonders?

Frühere Systeme waren oft zu schwerfällig oder zu starr.

  • Leichtgewicht: Da die kleinen Werkstätten oft wenig Rechenleistung haben, ist dieses System extrem schlank. Es verbraucht kaum Energie.
  • Flexibilität: Es passt sich an. Wenn eine neue Werkstatt hinzukommt, meldet sie sich einfach. Wenn eine verschwindet, wird sie automatisch aus der Liste gestrichen.
  • Offenheit: Die Werkstätten können ihre eigenen, ganz speziellen Daten melden. Wenn eine Fabrik „Vibrationen der Maschine" messen will, kann sie das einfach tun. Das System fragt nicht „Was willst du?", sondern „Hier ist alles, was du hast".

5. Was kommt als Nächstes? (Die Zukunft)

Die Autoren geben zu, dass das System aktuell noch sehr zentralisiert ist (alles läuft über das Chef-Büro). Wenn es aber Millionen von Filialen gibt, könnte das Chef-Büro überlastet werden.

  • Die Idee für die Zukunft: Die Filialen sollen sich untereinander vernetzen (wie ein Schwarm Vögel). Sie könnten sich gegenseitig prüfen und Daten zusammenfassen, bevor sie zum Chef-Büro schicken. Das wäre noch effizienter.
  • Zusatz: Sie planen auch, Warnsysteme einzubauen (wie eine Feueralarm), die automatisch reagieren, wenn etwas schiefgeht, und die Daten für künstliche Intelligenz nutzbar zu machen.

Zusammenfassung

Kurz gesagt: Die Autoren haben ein schlankes, flexibles Nervensystem für ein Netzwerk von kleinen, mobilen Rechenzentren gebaut. Es sorgt dafür, dass der Chef immer genau weiß, was in seinen Filialen passiert, ohne diese Filialen mit schwerer Technik zu erdrücken. Es ist wie ein unsichtbarer, aber sehr aufmerksamer Manager, der immer einen Schritt voraus ist.