Heterogeneous Multi-Agent Reinforcement Learning with Attention for Cooperative and Scalable Feature Transformation

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Koch, der ein köstliches Gericht zubereiten möchte. Ihre Zutaten sind die Rohdaten (z. B. Zahlen aus einer Datenbank über Kunden oder Patienten). Das Problem ist: Wenn Sie diese Zutaten einfach nur in einen Topf werfen, schmeckt das Ergebnis oft langweilig oder gar nicht gut.

Um ein Meisterwerk zu kochen, müssen Sie die Zutaten kombinieren und transformieren. Vielleicht mischen Sie Zucker und Zimt, oder Sie kochen etwas langsam, damit es weicher wird. In der Welt der künstlichen Intelligenz (KI) nennt man das Feature-Transformation. Es geht darum, aus den vorhandenen Daten neue, aussagekräftigere Informationen zu erschaffen, damit die KI besser lernt.

Bisher war dieser Prozess oft wie ein blindes Herumprobieren: Man hat einfach alles miteinander vermischt und gehofft, dass es schmeckt. Das war ineffizient und dauerte ewig.

Hier kommt die Idee dieses Papers ins Spiel: HAFT (Heterogeneous Multi-Agent Reinforcement Learning with Attention).

Die Idee: Ein Team von Spezialisten statt eines einzelnen Kochs

Stellen Sie sich HAFT nicht als einen einzelnen Koch vor, sondern als ein kleines, hochspezialisiertes Team von drei Köchen, die in einer Küche arbeiten, um das perfekte Rezept zu finden.

Koch A (Der Kopf): Dieser Koch schaut sich den Vorrat an und sagt: „Ich nehme heute die Tomaten!" (Er wählt eine erste Eigenschaft aus den Daten).
Koch B (Der Handwerker): Dieser Koch hört zu und entscheidet: „Okay, mit den Tomaten machen wir eine Suppe!" (Er wählt eine mathematische Operation, z. B. Addition oder Multiplikation).
Koch C (Der Schwanz): Dieser Koch sucht sich noch eine weitere Zutat aus, die perfekt zur Suppe passt: „Und wir geben noch Basilikum dazu!" (Er wählt die zweite Eigenschaft).

Das Besondere: Diese drei Köche sind nicht alle gleich (daher „heterogen"). Koch A und C müssen sich durch einen riesigen, sich ständig verändernden Vorratsschrank arbeiten, während Koch B nur aus einer festen Liste von Rezepten wählen muss. Das Team ist also speziell auf seine Aufgaben zugeschnitten.

Das Problem: Der sich ständig verändernde Vorratsschrank

Das Schwierige an diesem Koch-Team ist, dass der Vorratsschrank wächst. Jedes Mal, wenn die Köche eine neue Suppe (eine neue Kombination) kreieren, kommt ein neues, fertiges Gericht in den Schrank. Der Schrank wird also mit jedem Schritt größer und unübersichtlicher.

Frühere Methoden hatten Schwierigkeiten, sich in diesem wachsenden Chaos zurechtzufinden. Sie wussten nicht, welche Zutat sie jetzt wählen sollten.

Die Lösung von HAFT: Der „Achtsamkeits-Radar" (Attention)
Um sich in diesem wachsenden Chaos zurechtzufinden, nutzen die Köche einen Achtsamkeits-Radar (im Fachjargon: Multi-Head Attention).
Stellen Sie sich das wie einen Super-Sinn vor, der sofort erkennt: „Hey, obwohl der Schrank riesig ist, sind diese zwei Tomaten und dieses Basilikum gerade die wichtigsten!" Der Radar ignoriert den lärmenden Rest und konzentriert sich nur auf das, was für das nächste Rezept wirklich relevant ist. So bleibt das Team effizient, egal wie groß der Vorrat wird.

Das Problem: Jeder kocht für sich?

Ein weiteres Problem bei solchen Teams ist oft die Kommunikation. Wenn Koch A die Tomaten nimmt, weiß Koch B vielleicht nicht genau, warum. Sie arbeiten isoliert. Das führt zu schlechten Rezepten.

Die Lösung von HAFT: Der gemeinsame Küchenchef (Shared Critic)
HAFT führt einen gemeinsamen Küchenchef ein. Dieser Chef steht nicht selbst am Herd, sondern beobachtet das gesamte Team.

Er sieht, was Koch A, B und C tun.
Er sieht den gesamten Vorratsschrank.
Er gibt dem Team ein gemeinsames Feedback: „Das war eine gute Idee, aber ihr hättet vielleicht das Basilikum früher nehmen sollen."

Dank dieses Küchenchefs arbeiten die Köche nicht mehr gegeneinander, sondern kooperativ. Sie lernen aus den Fehlern der anderen und entwickeln gemeinsam eine bessere Strategie.

Das Ergebnis: Ein stabileres und besseres Gericht

Das Paper zeigt, dass dieses Team-System (HAFT) viel besser funktioniert als die alten Methoden:

Es ist schneller: Es findet die besten Kombinationen in weniger Zeit.
Es ist robuster: Es funktioniert auch dann gut, wenn die Daten sehr komplex sind oder sich ändern.
Es ist erklärbar: Man kann genau nachvollziehen, wie das Team zu einem neuen Rezept kam (z. B. „Tomaten + Basilikum = Suppe"). Das ist wichtig, damit wir verstehen, warum die KI eine bestimmte Entscheidung trifft.

Zusammenfassung in einem Satz

HAFT ist wie ein super-koordiniertes Küchenteam mit einem klugen Küchenchef und einem Super-Radar, das gemeinsam lernt, wie man aus einfachen Zutaten (Daten) durch geschicktes Kombinieren (Transformation) die besten Gerichte (Vorhersagemodelle) zaubert – und das viel schneller und effizienter als bisherige Methoden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderung der automatisierten Feature-Transformation (Merkmalskonstruktion), insbesondere für strukturierte Daten wie Tabellen. Obwohl Deep-Learning-Modelle erfolgreich sind, haben sie Schwierigkeiten, komplexe Interaktionen zwischen strukturierten Features effektiv zu erfassen. Feature-Transformation durch mathematische Kreuzungen (z. B. Multiplikation oder Division von Features) kann die Leistung nachgelagerter Aufgaben verbessern.

Bisherige Ansätze leiden jedoch unter zwei Hauptproblemen:

Dynamische Expansion des Feature-Raums: Während des iterativen Transformationsprozesses wächst der Feature-Raum kontinuierlich. Dies führt zu Instabilität und erhöhter zeitlicher Komplexität für Reinforcement-Learning (RL)-Agenten, die Schwierigkeiten haben, relevante Features aus einer sich ständig verändernden Menge auszuwählen.
Mangelnde Kooperation: Bestehende RL-Methoden nutzen oft nur lokale Informationen (z. B. Entscheidungen vorheriger Agenten). Dies führt zu suboptimalen Strategien, da die Agenten keinen globalen Überblick über den Feature-Raum haben und schlecht miteinander kommunizieren.

2. Methodik: HAFT Framework

Die Autoren schlagen HAFT (Heterogeneous multi-Agent reinforcement learning framework for cooperative and scalable Feature Transformation) vor. Das Framework nutzt drei heterogene, kaskadierte Agenten, die zusammenarbeiten, um Features und mathematische Operationen auszuwählen.

A. Heterogene Agenten-Architektur

Das System besteht aus drei spezialisierten Agenten, die in einer Kaskade arbeiten:

Head Feature Agent: Wählt ein erstes Kandidaten-Feature ( $f_1$ ) aus dem aktuellen Feature-Raum aus.
Operation Agent: Wählt eine mathematische Operation ( $o$ ) (z. B. Addition, Multiplikation, Sinus) aus einem festen Satz von Operationen aus.
Tail Feature Agent: Wählt ein zweites Kandidaten-Feature ( $f_2$ ) basierend auf den vorherigen Entscheidungen und dem aktuellen Feature-Raum aus.

Die neuen Features werden durch Anwendung der gewählten Operation auf die gewählten Features generiert ( $f_{neu} = f_1 \circ f_2$ ).

B. Schlüsselkomponenten

Multi-Head Attention für Feature-Agenten:
Um die Herausforderung des dynamisch wachsenden Feature-Raums zu bewältigen, verwenden die Feature-Agenten eine Multi-Head-Attention-Architektur (ähnlich einem Transformer-Encoder).
- Vorteil: Die Attention-Mechanismen gewichten Features basierend auf ihrer Relevanz, ohne eine feste Eingabegröße zu benötigen. Dies ermöglicht Skalierbarkeit und das Erfassen komplexer, globaler Feature-Interaktionen, auch wenn sich die Anzahl der Features ändert.
MLP-basierter Operation-Agent:
Da der Satz der mathematischen Operationen statisch ist, verwendet dieser Agent ein einfacheres Multi-Layer-Perceptron (MLP) mit einem dynamischen Maskierungsmechanismus.
- Funktion: Die Maske verhindert ungültige Operationen (z. B. Quadratwurzel aus negativen Zahlen), indem sie die Wahrscheinlichkeit für ungültige Aktionen auf nahezu Null setzt.
Shared Central Critic (Geteilter Kritiker):
Ein zentraler Kritiker bewertet die Entscheidungen aller Agenten basierend auf globalen Informationen des Feature-Raums.
- Ziel: Verbesserung der Kommunikation und Koordination zwischen den Agenten. Er dient als einheitliche Basis für die Vorteilsschätzung (Advantage Estimation).
State Encoding (Zustandskodierung):
Um die Instabilität durch wachsende Feature-Sets zu stabilisieren, wird ein zweigeteilter Encoder für den Kritiker verwendet:
1. Statistik-Branch: Berechnet deskriptive Statistiken (Mittelwert, Varianz, Quartile etc.) über den Feature-Raum und normalisiert sie zu einem festen Vektor.
2. Attention-Branch: Nutzt Attention, um Interaktionen zwischen Features zu erfassen und diese in einen festen Vektor zu poolen.
  Diese Kombination sorgt für eine stabile Eingabe für den Kritiker, unabhängig von der aktuellen Anzahl der Features.

C. Lernalgorithmus

Das System verwendet eine angepasste Version von HAPPO (Heterogeneous Actor-Proximal Policy Optimization).

Sequentielle Aktualisierung: Die Agenten werden nacheinander aktualisiert (Head-Feature $\to$ Operation $\to$ Tail-Feature), wobei die Vorteilsschätzung (Advantage) für nachfolgende Agenten an die aktualisierten Strategien der vorherigen angepasst wird.
Belohnungsfunktion: Die Belohnung basiert auf der Leistung der nachgelagerten ML-Aufgabe, ergänzt durch Terme zur Minimierung von Informationsredundanz und Maximierung der Relevanz (basierend auf gegenseitiger Information, Mutual Information) sowie einem Entropie-Term zur Förderung der Exploration.

3. Hauptbeiträge

Neues Framework: Einführung von HAFT, das Multi-Agenten-Kooperation nutzt, um den Feature-Raum effizient und skalierbar zu erkunden.
Algorithmische Innovation:
- Entwicklung einer heterogenen Agentenstruktur (Attention-basiert für Features, MLP für Operationen).
- Implementierung eines Shared-Critic-Mechanismus zur Verbesserung der Koordination und Kreditvergabe (Credit Assignment).
- Einführung einer robusten State-Encoding-Technik zur Stabilisierung des Lernprozesses bei dynamischen Feature-Sets.
Umfassende Evaluation: Validierung auf 23 realen Datensätzen (Klassifikation und Regression) mit überlegenen Ergebnissen gegenüber dem State-of-the-Art.

4. Ergebnisse

Die Experimente wurden auf 23 Datensätzen (z. B. UCI, Kaggle, OpenML) durchgeführt und verglichen HAFT mit 8 bestehenden Methoden (z. B. RDG, ERG, NFS, GRFG).

Leistung: HAFT übertraf in den meisten Szenarien alle Baselines konsistent (gemessen an Metriken wie F1-Score, 1-RAE, $R^2$ ).
Ablationsstudien:
- Der Shared Critic ist entscheidend: Modelle ohne ihn (separate Critics) oder ohne Vorteilstrennung zeigten signifikant schlechtere Ergebnisse.
- Die State Encoding-Strategie (Kombination aus Statistik und Attention) verbesserte die Leistung im Vergleich zu rein statistischen Eingaben.
Skalierbarkeit: Im Vergleich zu GRFG (einem ähnlichen Multi-Agenten-Ansatz) war HAFT deutlich schneller pro Iteration, da es auf Clustering verzichtet und stattdessen Attention nutzt.
Robustheit: HAFT zeigte stabile Verbesserungen über verschiedene nachgelagerte Modelle hinweg (Random Forest, XGBoost, SVM, etc.).
Interpretierbarkeit: Ein Case-Study zeigte, dass HAFT neue, interpretierbare Features generiert, die auf den ursprünglichen Features basieren und die Leistung um ca. 14% steigern können.
Kurz- vs. Langfristgewinn: Das System ist in der Lage, kurzfristige Leistungseinbußen in Kauf zu nehmen, um langfristig bessere Feature-Kombinationen zu finden (tiefe Exploration).

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Kombination aus heterogenen Multi-Agenten-Systemen, Attention-Mechanismen und zentraler Kritik eine effektive Lösung für das Problem der automatisierten Feature-Transformation darstellt.

Wissenschaftlicher Wert: Es löst das Problem der Skalierbarkeit bei dynamisch wachsenden Feature-Räumen, das bisherige RL-Ansätze oft behinderte.
Praktische Relevanz: Die Methode ist besonders wertvoll für strukturierte Daten in Bereichen wie Finanzen (Kreditrisiko) und Gesundheit, wo Interpretierbarkeit und hohe Leistung gleichermaßen wichtig sind.
Zukunft: Die Autoren sehen die weitere Verbesserung der Generalisierungsfähigkeit und die Anpassung an dynamische Datenumgebungen als vielversprechende zukünftige Forschungsrichtungen.

Zusammenfassend bietet HAFT einen robusten, skalierbaren und interpretierbaren Ansatz, der die Grenzen bestehender automatischer Feature-Engineering-Methoden überwindet.