ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen genialen, aber sehr langsamen Chef (das KI-Modell), der komplexe Aufgaben lösen soll. Um diese Aufgaben zu erledigen, muss der Chef ständig auf verschiedene Werkzeuge zugreifen: Er braucht einen Computer, um Code zu testen, eine Bibliothek, um Informationen zu suchen, oder einen Prüfer, um die Ergebnisse zu bewerten.

Das Problem ist: In der bisherigen Welt wurden diese Werkzeuge starr und verschwenderisch reserviert.

Das alte Problem: Der "Einzelzimmer-Prinzip"

Stell dir vor, du mietest für jeden deiner Mitarbeiter ein eigenes, riesiges Büro mit einem eigenen Computer, einem eigenen Drucker und einem eigenen Telefon.

Das Problem: Dein Mitarbeiter arbeitet vielleicht nur 10 Minuten am Tag an diesem Computer. Die restlichen 50 Minuten steht das Gerät leer herum. Aber du zahlst trotzdem die Miete für das ganze Büro.
Im KI-Kontext: Wenn eine KI eine Aufgabe löst (eine "Trajektorie"), reserviert das System oft die ganzen Ressourcen (CPUs, GPUs) für die gesamte Dauer dieser Aufgabe. Dabei wird die KI nur sporadisch aktiv. Die restliche Zeit liegen die teuren Serverbräuche brach. Das ist extrem teuer und ineffizient.

Die Lösung: ARL-Tangram – Das "Tetris"-Prinzip für Ressourcen

Die Forscher haben ARL-Tangram entwickelt. Der Name kommt von "Tangram", einem alten chinesischen Puzzle, bei dem man aus wenigen geometrischen Formen unzählige Figuren legen kann. Genau das macht dieses System: Es passt die Ressourcen dynamisch an, wie ein Puzzle.

Hier ist die einfache Erklärung, wie es funktioniert:

1. Vom "Büro" zur "Einzel-Aufgabe" (Action-Level)

Statt einem ganzen Büro für eine ganze Aufgabe zu mieten, betrachtet ARL-Tangram jede kleinste Handlung einzeln.

Alt: "Ich brauche einen Server für die nächsten 10 Minuten, egal was ich gerade mache."
Neu: "Ich brauche genau jetzt für 2 Sekunden einen CPU-Kern, um diesen einen Befehl auszuführen."
Sobald die Aufgabe erledigt ist, wird der Kern sofort wieder freigegeben und steht einem anderen KI-Mitarbeiter zur Verfügung. Das ist wie ein Carsharing-System statt eines eigenen Autos für jeden.

2. Der cleere Disponent (Elastic Scheduling)

Stell dir einen sehr schnellen Disponenten vor, der in Echtzeit entscheidet, wer wann welche Ressource bekommt.

Wenn eine Aufgabe viel Rechenleistung braucht (z. B. ein komplexes Rätsel), gibt der Disponent sofort mehr "Kraft" (mehr Prozessoren) dazu, damit es schneller geht.
Wenn eine Aufgabe nur wenig braucht, nimmt er die Kraft wieder weg, damit sie für andere verfügbar ist.
Der Clou: Der Disponent ist so schlau, dass er nicht nur schaut, was gebraucht wird, sondern auch wie lange es dauert, wenn man mehr oder weniger Ressourcen gibt. Er versucht immer, die Wartezeit für alle zu minimieren.

3. Spezialisten für verschiedene Werkzeuge (Heterogeneous Managers)

Nicht alle Werkzeuge sind gleich.

CPUs (für Code) sind wie ein großer Schwarm kleiner Helfer. Das System teilt sie fein auf, aber behält den "Arbeitszustand" (den Kontext) im Hintergrund, damit man nicht jedes Mal neu anfangen muss.
GPUs (für komplexe Berechnungen) sind wie teure, seltene Maschinen. Da sie schwer zu starten sind, nutzt das System eine Art "Sofa-Prinzip": Wenn eine Maschine gerade nicht benutzt wird, wird ihr Zustand auf ein Sofa (den Arbeitsspeicher) gelegt. Wenn sie wieder gebraucht wird, holt man sie blitzschnell vom Sofa zurück, statt sie komplett neu zu bauen.

Was bringt das? (Die Ergebnisse)

Durch dieses geschickte "Puzzeln" und "Teilen" passieren drei Wunder:

Es geht viel schneller: Die KI muss nicht mehr auf leere Server warten. Die Trainingszeit pro Schritt wurde um das 1,5-fache beschleunigt.
Es ist viel billiger: Da die Ressourcen nicht mehr leer herumstehen, spart man bis zu 71 % an externen Rechenressourcen. Das ist, als würde man die Miete für drei Büros auf einmal sparen, weil man sie sich clever teilt.
Es funktioniert überall: Das System ist so flexibel, dass es sowohl für Code-Tests als auch für Web-Suchen oder das Bewerten von KI-Antworten genutzt werden kann.

Zusammenfassung in einem Satz

ARL-Tangram verwandelt das verschwenderische "Jeder bekommt sein eigenes, stilles Büro"-Prinzip in ein dynamisches "Shared-Workshop"-System, bei dem teure Ressourcen genau dann genutzt werden, wenn sie wirklich gebraucht werden, und sofort wieder weitergegeben werden, wenn sie fertig sind.

Das Ergebnis: KI-Modelle lernen schneller, und die Cloud-Kosten sinken drastisch.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Hintergrund: Agentic Reinforcement Learning (RL) ermöglicht es Large Language Models (LLMs), komplexe Probleme durch Interaktion mit der realen Welt zu lösen (z. B. durch Code-Execution, API-Aufrufe oder Deep Search). Im Gegensatz zu traditionellem RL erfordert dieser Ansatz erhebliche externe Cloud-Ressourcen (CPUs für Code, GPUs für Reward-Modelle, API-Quoten), die oft außerhalb des primären Trainings-Clusters liegen.

Das Kernproblem: Bestehende Frameworks nutzen statische Überbereitstellung (Over-Provisioning) von Ressourcen. Dies geschieht auf zwei Ebenen:

Auf Trajektorien-Ebene: Ressourcen werden für die gesamte Lebensdauer einer Trajektorie reserviert, obwohl die externen Aufrufe nur sporadisch (z. B. nur 47% der Zeit bei AI Coding) stattfinden. Dies führt zu langen Leerlaufzeiten.
Auf Task-Ebene: Verschiedene RL-Tasks nutzen isolierte Ressourcen für spezifische Dienste. Aufgrund schwankender Aufrufmuster werden diese Ressourcen stark unterausgelastet.

Folgen: Diese Ineffizienz führt zu:

Erhöhter Latenz bei Aufrufen, was die RL-Trainingsgeschwindigkeit bremst oder zum Scheitern des Trainings führt.
Hoher Kosten durch nicht genutzte Ressourcen.
Begrenzter Systemkonkurrenzfähigkeit und Warteschlangenverzögerungen.

2. Methodik: ARL-Tangram

ARL-Tangram ist ein einheitliches Ressourcenmanagement-System, das die Granularität der Ressourcensteuerung von der Trajektorien- oder Task-Ebene auf die Action-Ebene (atomare Aufrufe) verschiebt.

A. Action-Level Orchestrierung (Das Konzept)
Statt Ressourcen für lange Laufzeiten zu reservieren, werden Ressourcen für jede einzelne atomare Aktion (z. B. einen Tool-Aufruf) dynamisch allokiert und nach Abschluss wieder freigegeben. Dies ermöglicht:

Breakdown: Aufbrechen der Ressourcennutzung langer Umgebungen.
Pool: Gemeinsame Nutzung (Pooling) von Ressourcen für Aktionen desselben Typs über verschiedene Tasks hinweg.
Elastizität: Dynamische Zuweisung zusätzlicher Ressourcen (z. B. mehr CPU-Kerne oder GPUs) für skalierbare Aktionen, um die Ausführungszeit zu verkürzen.

B. Einheitliche Action-Formulierung
Das System modelliert jede Aktion als Vektor von Ressourcenkosten ( $C_i$ ), der verschiedene Ressourcenarten (CPU, GPU, Speicher, API-Quoten) berücksichtigt.

Elastizitätsmodellierung: Für skalierbare Aktionen wird eine Funktion definiert, die beschreibt, wie sich die Ausführungsdauer bei Erhöhung der Ressourceneinheiten (Degree of Parallelism, DoP) verkürzt.
Dies erlaubt es, heterogene Aktionen in ein gemeinsames Format zu überführen, das für den Scheduler verständlich ist.

C. Elastischer Scheduling-Algorithmus
Das Ziel des Schedulers ist die Minimierung der Action Completion Time (ACT), definiert als Summe aus Warteschlangenzeit und Ausführungsdauer.

Strategie: Ein heuristischer Algorithmus mit einem greedy eviction mechanism.
Ablauf: Der Scheduler wählt Kandidaten aus der Warteschlange (basierend auf FCFS), gruppiert sie nach ihrem „Schlüssel-Ressourcentyp" (dem Ressourcen-Typ, der die Elastizität bestimmt) und berechnet die optimale Ressourcenzuweisung.
Optimierung: Der Algorithmus versucht iterativ, Aktionen aus der Zuweisung zu entfernen (evict), um die verbleibenden Aktionen mit mehr Ressourcen zu versorgen, solange dies die Gesamt-ACT verbessert. Dies verhindert sowohl zu aggressive als auch zu konservative Allokationen.

D. Heterogene Ressourcen-Manager
Um die „Breakdown & Pool"-Strategie auf unterschiedlichen Hardware-Architekturen umzusetzen, wurden spezialisierte Manager entwickelt:

CPU-Manager (AOE - Allocate-on-Execution): Nutzt Docker cgroups, um CPU-Limits und CPU-Sets pro Ausführung dynamisch anzupassen. Der Speicherzustand wird erhalten, um Kontextwechsel schnell zu machen.
GPU-Manager (EOE - Evict-on-Execution): Da GPU-Speicher knapp ist, werden Dienste bei Bedarf in den GPU-Speicher geladen und bei Nichtgebrauch aus dem GPU-Speicher verdrängt (in CPU-Speicher gesichert). Dies reduziert Fragmentierung und ermöglicht das Hosting mehrerer Dienste auf begrenzter Hardware.
Basic Manager: Verwaltet nicht skalierbare Ressourcen wie API-Quoten.

3. Wichtige Beiträge

Analyse des Over-Provisioning: Identifizierung und Kategorisierung von Ressourcenverschwendung auf Trajektorien- und Task-Ebene in Agentic RL.
Action-Level Scheduling: Einführung eines neuen Paradigmas, das Ressourcenmanagement auf atomare Aufrufe verlagert und feinkörniges Sharing sowie Elastizität ermöglicht.
Einheitliches System (ARL-Tangram): Entwicklung eines Frameworks mit einer einheitlichen Formulierung, einem elastischen Scheduling-Algorithmus und spezialisierten Managern für heterogene Ressourcen.
Praktische Implementierung: Das System ist framework-unabhängig und wurde erfolgreich in der Produktion für das Training der MiMo-Serie von Modellen eingesetzt.

4. Ergebnisse

Die Evaluation erfolgte an realen Agentic-RL-Workloads (AI Coding, DeepSearch, MOPD) im Vergleich zu statischen Baselines (z. B. Kubernetes, SGLang).

Verbesserung der ACT: ARL-Tangram reduzierte die durchschnittliche Action Completion Time um bis zu 4,3-fach.
Trainingsgeschwindigkeit: Die Dauer eines RL-Trainingsschritts (Step Duration) wurde um bis zu 1,5-fach beschleunigt.
Ressourceneffizienz: Es wurden bis zu 71,2% der externen Ressourcen eingespart.
Skalierbarkeit: Das System zeigte bei hohen Batch-Größen (bis zu 2048 Trajektorien) eine überlegene Leistung gegenüber Baselines, die bei hoher Last oft überlastet waren oder timeouts produzierten.
Overhead: Der System-Overhead (z. B. durch State-Restoration bei GPUs) bleibt gering (<3% bei CPU-lastigen Tasks, ~25% bei GPU-lastigen Tasks) und skaliert stabil.

5. Bedeutung

ARL-Tangram adressiert eine kritische Lücke in der Infrastruktur für Agentic RL. Während bisherige Arbeiten sich oft auf die Optimierung des LLM-Trainings selbst konzentrierten, ignorierten sie die Ineffizienzen der externen Ressourcen.

Kostenreduktion: Durch die drastische Senkung des Ressourcenbedarfs wird Agentic RL wirtschaftlich nachhaltiger.
Trainingsstabilität: Durch die Vermeidung von Blockaden und Timeouts wird die Zuverlässigkeit von Trainingsläufen erhöht.
Generalität: Der Ansatz ist nicht auf spezifische Tools beschränkt, sondern bietet eine generische Lösung für die Orchestrierung heterogener Cloud-Ressourcen in komplexen Agenten-Workflows.

Zusammenfassend stellt ARL-Tangram einen Paradigmenwechsel dar: Weg von statischer, isolierter Ressourcenreservierung hin zu einer dynamischen, feinkörnigen und elastischen Orchestrierung, die die Effizienz von Agentic RL in Cloud-Umgebungen maximiert.

ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning

Das alte Problem: Der "Einzelzimmer-Prinzip"

Die Lösung: ARL-Tangram – Das "Tetris"-Prinzip für Ressourcen

1. Vom "Büro" zur "Einzel-Aufgabe" (Action-Level)

2. Der cleere Disponent (Elastic Scheduling)

3. Spezialisten für verschiedene Werkzeuge (Heterogeneous Managers)

Was bringt das? (Die Ergebnisse)

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: ARL-Tangram

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks