PromCopilot: Simplifying Prometheus Metric Querying in Cloud Native Online Service Systems via Large Language Models

Die Arbeit stellt PromCopilot vor, ein Framework, das auf einem Wissensgraphen und einem großen Sprachmodell (LLM) basiert, um natürliche Sprache automatisch in PromQL-Abfragen für die Überwachung cloud-nativer Systeme zu übersetzen und dabei erstmals einen Benchmark für diese Aufgabe bereitstellt.

Chenxi Zhang, Bicheng Zhang, Dingyu Yang, Xin Peng, Miao Chen, Senyu Xie, Gang Chen, Wei Bi, Wei Li

Veröffentlicht Thu, 12 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Koch in einer riesigen, hochmodernen Küche (das ist Ihr Cloud-System). In dieser Küche gibt es tausende von Zutaten, tausende von Geräten und hunderte von Köchen, die gleichzeitig arbeiten. Um sicherzustellen, dass das Essen (der Dienst) perfekt schmeckt und nicht anbrennt, müssen Sie ständig auf die Temperatur der Öfen, den Verbrauch des Stroms und die Geschwindigkeit der Tellerübertragung achten.

In der IT-Welt nennt man diese Daten Metriken. Das Werkzeug, das diese Daten sammelt, heißt Prometheus. Aber um die Daten zu lesen, müssen Sie eine sehr komplizierte Sprache sprechen, die PromQL. Das ist wie wenn Sie, um zu fragen, wie viel Mehl noch da ist, nicht einfach sagen können: "Wie viel Mehl haben wir?", sondern eine komplexe Formel wie sum(rate(mehl_verbrauch[5m])) by (topf_id) tippen müssten.

Das Problem? Nur wenige Köche (Ingenieure) beherrschen diese komplizierte Sprache perfekt, und es dauert ewig, die richtigen Formeln zu finden, wenn man nicht genau weiß, welcher Topf zu welchem Ofen gehört.

Hier kommt PromCopilot ins Spiel.

Was ist PromCopilot?

Stellen Sie sich PromCopilot als einen super-intelligenten Küchen-Assistenten vor, der mit einem riesigen Gedächtnis und einem magischen Verstand (einem sogenannten "Large Language Model" oder LLM) ausgestattet ist.

Die große Innovation dieses Papiers ist, dass dieser Assistent nicht nur "dumm" Fragen beantwortet, sondern ein digitales Abbild der gesamten Küche hat. Wir nennen das eine Wissensgraph.

Wie funktioniert das? (Die Magie dahinter)

  1. Der Wissensgraph (Die Landkarte):
    Bevor der Assistent überhaupt eine Frage hört, hat er sich eine detaillierte Landkarte der Küche gemalt. Er weiß:

    • "Der 'Bestell-Service' läuft auf 50 verschiedenen Robotern (Pod)."
    • "Diese Roboter stehen auf 6 verschiedenen Tischen (Nodes)."
    • "Der 'Mehl-Verbrauch' wird nur auf dem 'Topf-1' gemessen, nicht auf dem 'Topf-2'."
      Diese Landkarte verbindet alles miteinander, genau wie ein Seilnetz, das alle Teile der Küche verbindet.
  2. Die Frage (Natürliche Sprache):
    Ein Ingenieur kommt und fragt ganz einfach: "Welcher Roboter hat noch am meisten freien Speicherplatz, auf dem der Bestell-Service läuft?"
    Früher müsste der Ingenieur wissen, wie man PromQL schreibt und welche Roboter zum Bestell-Service gehören. Mit PromCopilot reicht der einfache Satz.

  3. Die Zusammenarbeit (Synergie):
    Der Assistent (PromCopilot) macht nun drei Dinge:

    • Verstehen: Er zerlegt die Frage in Teile: "Ah, du willst den 'Speicherplatz' (Metrik) wissen, aber nur für die 'Roboter' (Komponenten), die zum 'Bestell-Service' gehören."
    • Suchen im Netz: Er schaut auf seine Landkarte (den Wissensgraphen). Er findet heraus: "Okay, der Bestell-Service läuft auf Roboter A, B und C. Diese stehen auf Tisch 1 und Tisch 2."
    • Übersetzen: Er nimmt diese Informationen und den einfachen Satz und wandelt sie in die perfekte, komplizierte PromQL-Formel um, die der Computer versteht.

Warum ist das so wichtig?

  • Kein Gedächtnistraining mehr: Ingenieure müssen nicht mehr stundenlang nach Dokumenten suchen, um zu wissen, welche Metrik zu welchem Service gehört. Der Assistent weiß es sofort.
  • Fehlervermeidung: Wenn man die komplizierte Formel selbst tippt, macht man leicht einen Tippfehler. Der Assistent macht das automatisch korrekt.
  • Geschwindigkeit: In einem Test haben Ingenieure mit PromCopilot Fragen in 100 Sekunden beantwortet. Ohne das Tool brauchten sie fast 400 Sekunden. Das ist wie der Unterschied zwischen einem Fahrrad und einem Sportwagen.

Das Ergebnis

Die Forscher haben das System getestet und eine Art "Prüfungsheft" mit 280 Fragen erstellt. Das Ergebnis war beeindruckend:

  • PromCopilot hat in fast 70 % der Fälle die perfekte Antwortformel geliefert.
  • Zum Vergleich: Wenn man nur einen normalen KI-Assistenten ohne die Landkarte (Wissensgraph) benutzt, lag die Erfolgsrate nur bei etwa 2,6 %. Das zeigt, wie wichtig die "Landkarte" ist.

Zusammenfassung

PromCopilot ist wie ein Dolmetscher, der nicht nur die Sprache übersetzt, sondern auch die Kontexte versteht. Er nimmt die komplizierte, technische Welt der Cloud-Überwachung und macht sie für jeden Ingenieur so einfach wie ein Gespräch mit einem Kollegen. Statt sich durch Formeln zu kämpfen, kann man einfach fragen, was man wissen will, und bekommt sofort die richtige Antwort.

Das ist ein großer Schritt hin zu einer Zukunft, in der wir uns nicht mehr um die Technik der Überwachung kümmern müssen, sondern uns auf das Ergebnis konzentrieren können: Stabile und zuverlässige Online-Dienste.