LeJOT-AutoML: LLM-Driven Feature Engineering for Job Execution Time Prediction in Databricks Cost Optimization

Each language version is independently generated for its own context, not a direct translation.

🚀 LeJOT-AutoML: Der KI-Coach für den Cloud-Tarif

Stell dir vor, du leitest eine riesige Flotte von Lieferwagen (das sind die Databricks-Jobs in der Cloud). Deine Aufgabe ist es, jeden Auftrag so günstig wie möglich zu erledigen, aber trotzdem pünktlich zu liefern.

Das Problem? Du weißt nie genau, wie lange eine Lieferung dauert.

Manchmal ist die Straße leer (schnell).
Manchmal gibt es Stau oder ein riesiges Paket, das schwer zu tragen ist (langsam).
Und manchmal ändert sich das Wetter mitten auf der Strecke (die Daten ändern sich).

Wenn du den falschen LKW wählst, zahlst du zu viel für einen riesigen Truck, der nur eine kleine Kiste bringt. Wenn du den falschen wählst, kommt die Ware zu spät. Bisher mussten menschliche Experten stundenlang nachschauen, welche Daten sie sammeln mussten, um die Fahrzeit vorherzusagen. Das dauerte Wochen und war oft veraltet, sobald sich die Straßenbedingungen änderten.

LeJOT-AutoML ist die Lösung: Ein Team aus KI-Agenten, das diese Aufgabe automatisch, schnell und klüger erledigt.

🧩 Das Problem: Der „versteckte" Stau

Früher haben die Experten nur auf die Karte geschaut (die statischen Daten: Wie groß ist das Paket? Wie viele Straßen gibt es?). Aber das reicht nicht.

Der Stau entsteht erst unterwegs: Erst wenn der LKW fährt, sieht man, ob eine Kreuzung blockiert ist (Daten-Verzerrung) oder ob ein LKW zu viele Pakete auf einmal laden muss (Shuffle-Amplifikation).
Die Daten sind verstreut: Die Informationen über den Stau liegen in verschiedenen Büchern: im Fahrtenbuch (Logs), im LKW-Handbuch (Metadaten) und im Kopf des Fahrers (Skripte).

Menschen mussten diese Informationen mühsam zusammenflicken. Das war langsam und fehleranfällig.

🤖 Die Lösung: Das KI-Agenten-Team

LeJOT-AutoML setzt nicht auf einen einzelnen Super-Computer, sondern auf ein Team von KI-Assistenten, die wie eine gut organisierte Werkstatt zusammenarbeiten. Sie nutzen ein großes Sprachmodell (LLM), das wie ein sehr gebildeter Ingenieur denkt, und verbinden es mit Werkzeugen, die wie eine Werkstatt-Ausstattung sind.

Hier sind die drei Hauptakteure:

1. Der Detektiv (Feature Analyzer Agent)

Stell dir ihn als einen erfahrenen Ermittler vor.

Was er tut: Er liest alle alten Fahrtenbücher, Handbücher und Logbücher.
Seine Magie: Er nutzt eine Art „Wissens-Bibliothek" (RAG), um zu verstehen, welche Faktoren wirklich wichtig sind. Er sagt: „Hey, wir müssen nicht nur die Größe des Pakets zählen, sondern auch, wie oft der Fahrer anhalten musste!"
Ergebnis: Er erstellt eine Liste von Dingen, die wir messen sollten (über 200 verschiedene Merkmale!).

2. Der Handwerker (Feature Extraction Agent)

Dieser Agent hat die Hände im Einsatz. Er ist nicht nur ein Denker, sondern ein Macher.

Was er tut: Er nimmt die Liste des Detektivs und geht los, um die Daten zu sammeln.
Seine Werkzeuge (MCP): Er nutzt spezielle Werkzeuge, um in die Logs zu schauen, die Datenbank abzufragen oder eine sichere Testumgebung (Sandbox) zu nutzen, um zu sehen, was passiert, bevor der echte Job läuft.
Wichtig: Er arbeitet in einer Sicherheitszone. Er darf keine Daten stehlen, die er noch nicht haben darf (z. B. darf er nicht die Fahrzeit nach dem Rennen kennen, um sie vorher zu erraten).

3. Der Prüfer (Feature Evaluation Agent)

Ein strenger Qualitätsmanager.

Was er tut: Er schaut sich die gesammelten Daten an. Sind sie nützlich? Sind sie verzerrt?
Feedback-Schleife: Wenn die Daten schlecht sind, sagt er dem Detektiv und dem Handwerker: „Das hier bringt uns nichts, versucht es nochmal anders!"
Sicherheitsgitter: Bevor etwas genutzt wird, prüft er zweimal:
1. Code-Check: Ist der Code fehlerfrei?
2. Datenschutz-Check: Enthält der Code keine „Zukunftsinformationen" (Label Leakage)?

⏱️ Der große Unterschied: Wochen vs. Minuten

Stell dir vor, du möchtest ein neues Rezept für eine Suppe entwickeln.

Der alte Weg (Manuell): Ein Koch (Experte) schmeckt die Suppe, schreibt ein Rezept auf, kocht sie, schmeckt wieder, ändert Gewürze. Das dauert Wochen. Wenn sich die Zutaten ändern (neue Daten), muss er alles neu machen.
Der LeJOT-Weg (AutoML): Ein KI-Koch-Team probiert tausende Kombinationen aus. Der Detektiv schlägt vor, der Handwerker kocht, der Prüfer schmeckt.
- Ergebnis: In 20 bis 30 Minuten haben sie ein perfektes Rezept mit über 200 Zutaten (Features) entwickelt.
- Vorteil: Wenn sich die Zutaten morgen ändern, passt sich das Team sofort an.

💰 Das Ergebnis: Geld sparen ohne Chaos

In der echten Welt (bei Lenovo und der Uni) hat dieses System gezeigt:

Geschwindigkeit: Was früher einen Monat dauerte, geht jetzt in einer halben Stunde.
Genauigkeit: Die Vorhersagen sind fast so gut wie die von Menschen (wenn auch nicht ganz perfekt), aber sie sind viel flexibler.
Kosten: Durch die bessere Planung der LKWs (Rechenressourcen) konnten 19 % der Cloud-Kosten gespart werden. Das ist, als würdest du jedes Jahr ein ganzes Jahr Urlaubsgeld sparen, ohne auf Urlaub zu verzichten.

🎯 Fazit in einem Satz

LeJOT-AutoML ist wie ein selbstlernender Navigator, der nicht nur auf die Landkarte schaut, sondern live den Verkehr beobachtet, die besten Routen berechnet und dabei sicherstellt, dass wir nie zu viel für den Tank bezahlen – und das alles in einem Bruchteil der Zeit, die ein menschlicher Navigator bräuchte.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

In Cloud-Umgebungen wie Databricks ist die Orchestrierung von Jobs entscheidend für die Kosteneffizienz. Das Framework LeJOT versucht, die Ausführungskosten zu minimieren, indem es günstige Rechenkonfigurationen auswählt, solange Latenz- und Abhängigkeitsanforderungen erfüllt werden. Dies erfordert jedoch eine hochpräzise Vorhersage der Ausführungszeit.

Das Hauptproblem liegt in der Dynamik und Heterogenität der Arbeitslasten:

Laufzeit-Effekte: Kritische Leistungsindikatoren (z. B. nach Partition-Pruning, Daten-Skew, Shuffle-Amplifikation) entstehen erst zur Laufzeit und sind in statischen Metadaten (wie Tabellenzeilenzahlen) nicht sichtbar.
Zersplitterte Datenquellen: Die relevanten Signale sind über Logs, Metadaten, Job-Skripte und Konfigurationshistorien verteilt.
Manuelle Ineffizienz: Bestehende Pipelines basieren auf manuell erstellten Features. Dieser Prozess ist langsam, erfordert tiefes Domänenwissen (Spark SQL, Plattform-Internals) und kann nicht schnell genug auf Drifts (Änderungen im Arbeitsverhalten) reagieren.
Folgen: Ungenaue Vorhersagen führen zu falscher Ressourcenbereitstellung (Over- oder Under-Provisioning), was entweder Latenzverletzungen (SLOs) oder hohe Kosten verursacht.

2. Methodik: Das LeJOT-AutoML-Framework

LeJOT-AutoML ist ein Agent-gesteuertes AutoML-Framework, das Large Language Models (LLMs) in den gesamten ML-Lebenszyklus integriert, um Feature-Engineering zu automatisieren und zu beschleunigen.

Architektur und Komponenten

Das System besteht aus einem geschlossenen Regelkreis mit fünf Kernkomponenten und zwei Sicherheits-Gates:

Feature Analyzer Agent (FAA):
- Nutzt Retrieval-Augmented Generation (RAG), um aus einer Domänen-Wissensbasis (Spark SQL-Praktiken, Plattformwissen) Kontext zu extrahieren.
- Generiert strukturierte Feature-Vorlagen basierend auf Job-Artefakten (Logs, Skripte, Metadaten).
Feature Extraction Agent (FExA):
- Nutzt das Model Context Protocol (MCP), um Tools aufzurufen: Log-Parser, Metadaten-Abfragen und eine read-only SQL-Sandbox.
- Materialisiert sowohl statische als auch lauffähigkeitsbasierte Features (z. B. Shuffle-Volumen, Task-Imbalance).
- Führt Normalisierung und Kodierung durch.
Feature Evaluation Agent (FEvA):
- Bewertet die Qualität der Features (Abdeckung, Stabilität, Redundanz) und die Modellleistung.
- Gibt iteratives Feedback an FAA und FExA, um die Pipeline zu verfeinern.
Modell-Selektor: Wählt den besten Prädiktor (z. B. XGBoost, LightGBM) und Hyperparameter aus.
Sicherheits-Gates:
- Code-Completion-Checker: Stellt sicher, dass generierter Code syntaktisch vollständig ist und gültige Bibliotheken nutzt.
- Data-Leakage-Checker: Verhindert, dass Features Informationen enthalten, die erst nach der Entscheidung (z. B. tatsächliche Laufzeit) verfügbar sind (Verhinderung von Label-Leakage).

Arbeitsablauf

Trainingsphase: Der Agent generiert Features, validiert sie, trainiert Modelle und iteriert basierend auf Feedback.
Inferenzphase: Für neue Jobs werden die gelernten Templates wiederverwendet, Features parallel extrahiert und die Vorhersage an LeJOT zur Ressourcenoptimierung übergeben.
Kontinuierliche Anpassung: Das System wird durch Drift-Signale oder zeitbasiert neu trainiert, um Staleness zu vermeiden.

3. Hauptbeiträge

LLM-gestützte AutoML-Pipeline: Erster Ansatz, der LLM-Agenten über Analyse, Tool-Aufruf, Feature-Extraktion, Validierung und Modellauswahl hinweg integriert, um schnelle Neutraining-Zyklen zu ermöglichen.
Agent-Tool-Kollaboration via MCP: Durch die Kombination von LLM-Planung mit der Ausführung durch MCP-Tools können dynamische Features extrahiert werden, die rein statische Analysen nicht erfassen können.
Iterativer Evaluierungszyklus mit Sicherheitsgates: Einführung eines feedbackgesteuerten Evaluierungsagents und strenger Sicherheitschecks (Code-Vollständigkeit, Data-Leakage), um die Zuverlässigkeit zu erhöhen und die Pipeline bis zur Erreichung von Kriterien zu verfeinern.

4. Ergebnisse und Evaluation

Die Evaluation erfolgte auf Enterprise-Databricks-Workloads im Vergleich zu manueller Feature-Engineering.

Feature-Diversität:
- AutoML: Generiert >200 Features (Log-Profiling, Zeitreihen, Driver-Node-Historie).
- Manuell: Erzeugt ca. 40 Features (hauptsächlich Konfigurationshistorie).
Vorhersagegenauigkeit:
- Manuelle Features erzielten eine höhere Genauigkeit ( $R^2 = 0.91$ vs. $0.81$ für AutoML).
- Der MAPE (Mean Absolute Percentage Error) lag bei AutoML bei 20,13 % gegenüber 19,49 % bei manuellen Methoden.
- Analyse: Der Unterschied liegt darin, dass manuelle Features stark auf Konfigurationshistorie und Preis-Mappings zugreifen, während das AutoML-System derzeit weniger Zugriff auf diese spezifischen Historien-Daten hat, dafür aber starkere Laufzeit-Signale nutzt.
Effizienzgewinn:
- Der Feature-Engineering- und Evaluierungszyklus wurde von ca. einem Monat (manuell) auf 20–30 Minuten (AutoML) reduziert.
- Die Iterationen im AutoML-Loop verbesserten die $R^2$ von 0,61 auf 0,81 innerhalb weniger Durchläufe.
Kosteneinsparung:
- Trotz der leicht geringeren Vorhersagegenauigkeit führte die Integration in LeJOT zu 19,01 % Kosteneinsparungen durch optimierte Orchestrierung.
- Zum Vergleich: Die manuelle Lösung erzielte 27,94 % Einsparungen, aber zu einem deutlich höheren Entwicklungsaufwand.

5. Bedeutung und Ausblick

LeJOT-AutoML demonstriert, dass Agent-gesteuerte Systeme die Lücke zwischen statischer Analyse und dynamischer Laufzeitrealität schließen können.

Skalierbarkeit: Das System ermöglicht eine kontinuierliche Anpassung an sich ändernde Arbeitslasten ohne manuellen Eingriff.
Praktischer Nutzen: Auch mit einer moderaten Genauigkeitslücke gegenüber manuellen Expertenmodellen bietet es einen signifikanten wirtschaftlichen Vorteil durch drastisch reduzierte Entwicklungszeit und Automatisierung.
Zukunft: Weitere Forschung zielt darauf ab, die „Ressourcen-Wahrnehmung" zu verbessern, indem reichhaltigere Konfigurations- und Preisdaten in die Toolchain integriert werden, um die Genauigkeit weiter an manuelle Methoden heranzuführen.

Zusammenfassend stellt LeJOT-AutoML einen Paradigmenwechsel dar: Weg von statischen, manuell gepflegten Feature-Pipelines hin zu dynamischen, selbstoptimierenden Systemen, die LLMs nutzen, um komplexe Cloud-Workloads effizienter und kostengünstiger zu orchestrieren.