Praxium: Diagnosing Cloud Anomalies with AI-based Telemetry and Dependency Analysis

Die Arbeit stellt Praxium vor, ein KI-gestütztes Framework zur Erkennung von Cloud-Anomalien und zur Ursachenanalyse in Microservice-Architekturen, das durch die Kombination von Telemetriedaten mit Abhängigkeitsinformationen von Software-Installationen eine skalierbare Diagnose und eine hohe Genauigkeit bei der Fehleridentifikation ermöglicht.

Rohan Kumar, Jason Li, Zongshun Zhang, Syed Mohammad Qasim, Gianluca Stringhini, Ayse Kivilcim Coskun

Veröffentlicht 2026-03-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie betreiben eine riesige, hochmoderne Fabrik für digitale Produkte. Diese Fabrik besteht nicht aus einem einzigen riesigen Gebäude, sondern aus hunderten kleinen, spezialisierten Werkshallen (den sogenannten Mikrodiensten). Jede Halle erledigt eine kleine Aufgabe: eine macht die Verpackung, eine andere den Versand, eine wieder die Buchhaltung.

Das Tolle an dieser Fabrik ist, dass sie sich ständig verändert. Jeden Tag werden neue Maschinen eingebaut, alte repariert oder Software-Updates eingespielt. Das nennt man CI/CD (kontinuierliche Integration und Bereitstellung). Es ist wie ein ständiger Baustellenbetrieb, bei dem die Arbeiter (die Entwickler) ständig neue Teile anbringen, ohne die Fabrik stillzulegen.

Das Problem: Das "Wer war's?"-Spiel
Wenn plötzlich die Produktion stockt – vielleicht läuft eine Maschine zu heiß oder ein Förderband bleibt stehen – ist es für die Werkmeister (die SREs, also die Systembetreuer) eine Hölle herauszufinden, welches neue Teil genau das Problem verursacht hat.
Stellen Sie sich vor, Sie haben in der letzten Stunde 50 neue Schrauben und 10 neue Motoren eingebaut. Wenn jetzt ein Motor überhitzt, wissen Sie nicht, ob es an Schraube Nr. 42 lag oder an Motor Nr. 3. Die Werkmeister müssen stundenlang durch tausende von Protokollen wühlen, um den Übeltäter zu finden. Das ist langsam, fehleranfällig und in der modernen Welt zu langsam.

Die Lösung: Praxium – Der Detektiv mit dem Röntgenblick
Hier kommt Praxium ins Spiel. Man kann es sich wie einen hochintelligenten, unsichtbaren Detektiv vorstellen, der zwei besondere Fähigkeiten hat:

  1. Der Überwachungs-Kamera (Anomalie-Erkennung):
    Praxium schaut sich ständig an, wie sich die Fabrikhallen verhalten. Es lernt, wie "normales" Verhalten aussieht (wie ein ruhiger Fluss). Wenn plötzlich etwas schiefgeht – etwa wenn eine Halle plötzlich extrem heiß wird (CPU-Spitze) oder der Speicherplatz voll ist (Festplatten-Sättigung) – schlägt es Alarm.
    Die Analogie: Es ist wie ein Rauchmelder, der nicht nur schreit, wenn Feuer ist, sondern genau weiß, wie sich der normale Rauch von einem Grillen unterscheidet.

  2. Der Zeitreise-Detektiv (Ursachenanalyse):
    Das ist die eigentliche Magie. Wenn der Alarm losgeht, schaut Praxium nicht nur auf die brennende Halle. Es schaut sich an, was in den letzten Minuten in dieser Halle und in den verbundenen Hallen eingebaut wurde.
    Es nutzt eine Art "Was-wäre-wenn"-Maschine (künstliche Intelligenz). Es simuliert: "Was wäre passiert, wenn wir den neuen Motor von vor 10 Minuten NICHT eingebaut hätten?"
    Wenn die Simulation zeigt, dass ohne diesen Motor alles normal gelaufen wäre, dann ist das der Übeltäter.

Wie funktioniert das im Detail?

  • Der Software-Scanner (PraxiPaaS):
    Bevor Praxium überhaupt etwas tut, gibt es einen Scanner, der genau notiert: "Um 14:02 Uhr wurde in Halle A die Bibliothek 'Libcurl' von Version 7 auf 8 aktualisiert." Er erstellt eine Art Inventarliste aller kleinen Änderungen.
  • Das Gedächtnis (VAE):
    Praxium hat ein trainiertes Gedächtnis (ein neuronales Netz), das weiß, wie die Fabrik normalerweise läuft. Wenn die Daten von heute nicht mehr in dieses Muster passen, weiß es: "Hier stimmt was nicht."
  • Das Kausalitäts-Netz (Der Zusammenhang):
    Nicht jede Halle ist mit jeder verbunden. Praxium zeichnet eine Landkarte, wer von wem abhängt. Wenn die "Versandhalle" Probleme hat, schaut Praxium nur auf die Hallen, die ihr direkt liefern (die "kritische Pfad"). Es ignoriert alle anderen Hallen, die nichts damit zu tun haben. Das spart Zeit und Energie.

Was hat das Team herausgefunden?
Das Team hat Praxium in einer Testumgebung mit künstlichen Störungen getestet (z. B. absichtlich überhitzte Prozessoren oder volle Festplatten).

  • Ergebnis: Der Detektiv war extrem gut! In über 97 % der Fälle hat er das Problem sofort erkannt und den richtigen Schuldigen (das falsche Software-Update) gefunden.
  • Besonderheit: Selbst wenn in sehr kurzer Zeit viele Updates nacheinander kamen (wie bei einem schnellen Baustellen-Hektik), konnte Praxium immer noch genau sagen, welches Update das Problem war.

Warum ist das wichtig?
Früher mussten menschliche Experten stundenlang raten und suchen. Mit Praxium wird dieser Prozess automatisiert. Es ist wie der Unterschied zwischen einem Feuerwehrmann, der raten muss, wo das Feuer herkommt, und einem Feuerwehrmann, der sofort sieht, wo der Funke gelandet ist.

Zusammenfassung in einem Satz:
Praxium ist ein KI-System, das in der chaotischen Welt von Cloud-Software nicht nur bemerkt, wenn etwas kaputt geht, sondern sofort weiß, welches kleine Software-Update genau dafür verantwortlich war, damit die Werkmeister schnell wieder arbeiten können.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →