Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber auch sehr hungrigen Assistenten. Dieser Assistent ist eine Künstliche Intelligenz (ein sogenanntes „Large Language Model" oder LLM), die dir bei komplexen Aufgaben hilft, wie zum Beispiel: „Buche mir einen Flug, finde die besten Preise für ein Hotel und recherchiere, ob das Wetter am Zielort gut wird."

Das Problem ist: Dieser Assistent ist sehr teuer im Unterhalt. Jedes Mal, wenn er nachdenkt („reasoning"), verbraucht er Rechenleistung und kostet Geld.

Das alte Problem: „Den ganzen Tag im Marathon-Modus"

Bisher gab es zwei einfache, aber ineffiziente Möglichkeiten, mit diesem Assistenten zu arbeiten:

Der „Immer-Genie"-Modus: Du zwingst den Assistenten, bei jeder kleinen Frage extrem tief nachzudenken.
- Analogie: Es ist so, als würdest du einen Weltmeister im Schach spielen lassen, nur um zu entscheiden, ob du heute Morgen einen Apfel oder eine Banane essen sollst. Das Ergebnis ist perfekt, aber du hast unnötig viel Energie (und Geld) verschwendet.
Der „Immer-Schnell"-Modus: Du sagst dem Assistenten, er soll immer nur schnell und oberflächlich arbeiten, um Kosten zu sparen.
- Analogie: Du lässt einen Sprinter einen Marathon laufen. Bei einfachen Aufgaben geht es schnell, aber sobald es kompliziert wird (z. B. eine komplexe Flugbuchung), macht er Fehler, weil er nicht genug nachgedacht hat.

Die Forscher haben festgestellt: Keine dieser beiden Strategien ist ideal. Manchmal braucht man den Weltmeister, manchmal reicht der Sprinter.

Die Lösung: ARES – Der intelligente Manager

Hier kommt ARES ins Spiel. ARES ist wie ein kluger Manager, der neben dem Assistenten sitzt und genau beobachtet, was gerade passiert.

Stell dir ARES als einen Verkehrspolizisten vor, der den Fluss des Denkens steuert:

Einfache Aufgaben: Wenn der Assistent nur eine einfache URL öffnen muss oder eine Telefonnummer sucht, schreit der Manager: „Hey, das ist einfach! Mach das schnell im 'Sprint-Modus'!" (Niedriger Aufwand).
Schwierige Aufgaben: Wenn der Assistent vor einer komplexen Entscheidung steht, wie „Welche Flugroute ist die beste unter Berücksichtigung von Stornokosten und Wetter?", ruft der Manager: „Stopp! Das ist kritisch! Denk jetzt langsam und gründlich nach im 'Genie-Modus'!" (Hoher Aufwand).

Wie lernt ARES das? (Die Trainingsphase)

Damit der Manager weiß, wann er was sagen muss, hat das Team ein cleveres Trainingssystem entwickelt:

Beobachtung: Zuerst lassen sie den Assistenten mit dem „Genie-Modus" eine Aufgabe perfekt lösen.
Rückwärts-Analyse: Dann schauen sie sich jeden einzelnen Schritt dieser perfekten Lösung an. Sie fragen sich: „Hätte der Assistent diesen Schritt auch geschafft, wenn er nur 'Sprint-Modus' benutzt hätte?"
- Wenn ja: „Super, das war zu viel Aufwand! Das war ein 'Sprint'-Schritt."
- Wenn nein: „Oh, hier war der Sprint zu schwach. Das war ein 'Genie'-Schritt."
Der kleine Helfer: Sie trainieren einen kleinen, schnellen Computer (den „Router"), der diese Muster lernt. Dieser kleine Helfer ist so schlau, dass er in Zukunft sofort erkennt: „Aha, hier müssen wir schnell sein, dort müssen wir tief nachdenken."

Das Ergebnis: Mehr Leistung, weniger Kosten

Die Ergebnisse sind beeindruckend:

Geld sparen: ARES hat den Verbrauch an „Denk-Zeit" (Tokens) um bis zu 52,7 % reduziert. Das ist, als würdest du dein Smartphone-Akku um die Hälfte länger halten, ohne dass die Leistung schlechter wird.
Kein Qualitätsverlust: Der Assistent macht fast genauso viele Aufgaben richtig wie im teuren „Immer-Genie"-Modus.
Selbstkorrektur: Besonders cool ist, dass ARES lernt, wann der Assistent „überdenkt" (Overthinking). Manchmal macht ein zu tiefes Nachdenken sogar Fehler, weil der Assistent sich in Details verliert. ARES verhindert das, indem es den Assistenten zurück auf den richtigen Weg lenkt.

Zusammenfassung in einem Satz

ARES ist wie ein intelligenter Sparfuchs für KI-Agenten, der genau weiß, wann man schnell durch die Welt sprinten darf und wann man anhalten und genau nachdenken muss, um Fehler zu vermeiden und Geld zu sparen.

Durch diese adaptive Methode können KI-Assistenten in Zukunft viel häufiger und günstiger eingesetzt werden, ohne dass wir auf ihre Intelligenz verzichten müssen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Agenten, die auf Large Language Models (LLMs) mit „Thinking"-Fähigkeiten basieren, erreichen hohe Genauigkeit durch lange Chain-of-Thought (CoT)-Reasoning-Prozesse. Dies führt jedoch zu erheblichen Inferenzkosten, da in jedem Schritt einer Multi-Step-Aufgabe eine große Anzahl von Reasoning-Tokens generiert wird.

Bestehende Ansätze zur Kostenkontrolle nutzen oft statische Strategien, bei denen ein fester Reasoning-Level (z. B. „hoch", „mittel", „niedrig") für die gesamte Aufgabe gewählt wird. Das Paper identifiziert zwei Hauptprobleme dieser statischen Herangehensweise:

Unterauslastung: Ein durchgängig niedriger Reasoning-Level führt zu signifikanten Leistungseinbußen, da komplexe Schritte (z. B. Navigation in komplexen Webseitenstrukturen) nicht ausreichend analysiert werden.
Überlastung: Ein durchgängig hoher Reasoning-Level ist ineffizient, da einfache Schritte (z. B. das Öffnen einer URL) unnötig viele Ressourcen verbrauchen.

Zudem sind bestehende Methoden des „Model Routing" (Weiterleitung an verschiedene Modelle unterschiedlicher Größe) oft ineffizient, da sie den KV-Cache nicht wiederverwenden können und zusätzliche Inferenzkosten verursachen.

2. Methodik: ARES Framework

ARES (Adaptive Reasoning Effort Selection) ist ein Framework, das die Reasoning-Effort-Ebene für jeden einzelnen Schritt einer Agenten-Aufgabe dynamisch und adaptiv bestimmt.

Kernkomponenten:

Router: Ein leichtgewichtiges LLM (z. B. Qwen3-1.7B), das als Router fungiert. Es nimmt die Interaktionshistorie ( $h_t$ ) und die aktuelle Beobachtung ( $o_t$ ) entgegen und sagt den optimalen Reasoning-Effort ( $e_t \in \{low, medium, high\}$ ) für den nächsten Schritt vorher.
Agent: Das eigentliche Agenten-LLM (z. B. gpt-oss-20b), das den vorhergesagten Effort-Level verwendet, um die nächste Aktion auszuführen.
Vorteil: Da derselbe Modell-Kontext genutzt wird, kann der KV-Cache über verschiedene Effort-Level hinweg wiederverwendet werden, was Latenz und Kosten im Vergleich zum Wechsel zwischen verschiedenen Modellen minimiert.

Trainingspipeline (Drei Phasen):
Das Training des Routers erfolgt in einem mehrstufigen Prozess, um die „minimale ausreichende Reasoning-Effort"-Ebene für jeden Schritt zu lernen:

Trajektorien-Sammlung (Trajectory Collection):
- Es werden erfolgreiche Trajektorien unter maximaler Reasoning-Effort-Ebene ( $e_{high}$ ) gesammelt.
- Aus diesen wird die prägnanteste (wenigste Schritte) erfolgreiche Trajektorie als Referenzpfad ausgewählt, um das Problem von einem langfristigen Optimierungsproblem in eine Reihe unabhängiger Schritt-für-Schritt-Labeling-Aufgaben zu zerlegen.
Reasoning-Effort-Annotation:
- Für jeden Schritt der Referenz-Trajektorie wird der minimale Effort-Level ermittelt, der notwendig ist, um die korrekte Aktion ( $a^*_t$ ) stabil zu reproduzieren.
- Dies geschieht durch mehrfache Stichproben (Multi-Trial) bei verschiedenen Effort-Levels ( $low, medium, high$ ). Ein Level gilt als ausreichend, wenn er in einer Mehrheit der Versuche die korrekte Aktion liefert.
- Der niedrigste ausreichende Level wird als Ground-Truth-Label ( $y_t$ ) für diesen Schritt festgelegt.
Rationale-Generierung:
- Um die Vorhersagegenauigkeit zu erhöhen, wird ein „Teacher"-Modell verwendet, um eine kurze Begründung (Rationale) für die Wahl des Effort-Levels zu generieren.
- Diese Rationale analysiert die Komplexität der aktuellen Beobachtung, den Fortschritt der Aufgabe und die Schwierigkeit des nächsten Sub-Tasks.
- Der Router wird dann auf die Vorhersage sowohl der Rationale als auch des Effort-Labels feinabgestimmt (Supervised Fine-Tuning, SFT).

Reinforcement Learning (RL):
Um die Grenzen des SFT zu überwinden (das oft nur greedy, schrittweise Optimierungen lernt), wird das Framework mit Reinforcement Learning (GRPO - Group Relative Policy Optimization) weiter optimiert.

Reward-Funktion: Besteht aus drei Komponenten:
1. Outcome Reward ( $R_{out}$ ): Hohe Belohnung für erfolgreichen Task-Abschluss.
2. Cost Reward ( $R_{cost}$ ): Strafe für höhere Reasoning-Levels (z. B. -1.0 für High), normalisiert über die Trajektorie.
3. Format Reward ( $R_{form}$ ): Strafe bei Verletzung des Ausgabeformats.
Datenfilterung: Nur Prompts, bei denen der Agent eine hohe Erfolgsrate hat, aber die Kosten variieren (hohe Varianz im Reward), werden für das RL-Training ausgewählt. Dies zwingt den Router, die Effizienz-Accuracy-Trade-offs zu lernen.

3. Wichtige Beiträge

Dynamische Zuweisung: Erstmals wird ein Framework vorgestellt, das den Reasoning-Effort pro Schritt in Multi-Step-Agenten dynamisch anpasst, anstatt statische Konfigurationen zu nutzen.
Effizientes Routing: Im Gegensatz zu herkömmlichem Model Routing nutzt ARES die internen „Thinking-Level" desselben Modells, was die Wiederverwendung des KV-Caches ermöglicht und Overhead minimiert.
Automatisierte Datengenerierung: Eine Pipeline zur Identifizierung des minimalen erforderlichen Reasoning-Aufwands für jeden Schritt, um hochwertige Trainingsdaten ohne manuelle Annotation zu erzeugen.
Rationale-Integration: Die Einbeziehung einer expliziten Begründung (Rationale) vor der Klassifikation verbessert die Entscheidungsfindung des Routers signifikant.

4. Ergebnisse

Das Framework wurde auf drei verschiedenen Benchmarks evaluiert: TAU-Bench (Tool-Use), BrowseComp-Plus (Deep Research) und WebArena (Web-Navigation).

Leistung vs. Kosten: ARES reduziert den Reasoning-Token-Verbrauch im Vergleich zu einer durchgängig hohen Reasoning-Einstellung um bis zu 52,7 %, während die Task-Erfolgsrate erhalten bleibt oder sogar leicht verbessert wird.
- TAU-Bench (Retail): 52,7 % Token-Reduktion bei gleicher Genauigkeit (54,8 %) wie High-Effort.
- BrowseComp-Plus: 41,8 % Token-Reduktion bei 41,3 % Erfolg (nahe am High-Effort-Limit von 42,7 %).
- WebArena: 45,3 % Token-Reduktion bei sogar leicht verbesserter Genauigkeit (46,5 % vs. 45,0 % bei High-Effort), was zeigt, dass zu viel Reasoning zu „Overthinking" und Fehlern führen kann.
RL-Optimierung: Die zusätzliche RL-Phase verbessert die Ergebnisse weiter. Im TAU-Bench Airline-Szenario sank der Token-Verbrauch von 678k (SFT) auf 133k (RL) bei gleichzeitiger Steigerung der Genauigkeit von 36,0 % auf 42,0 %.
Generalisierung: Der Router, der auf einem 20B-Modell trainiert wurde, generalisiert effektiv auf ein 120B-Modell (gpt-oss-120b), was die Skalierbarkeit des Ansatzes unterstreicht.

5. Bedeutung und Ausblick

ARES adressiert ein zentrales Hindernis für den praktischen Einsatz von LLM-Agenten: die hohen Kosten bei komplexen Aufgaben. Durch die intelligente, schrittweise Anpassung des Reasoning-Aufwands ermöglicht das Framework:

Kosteneffizienz: Deutliche Reduktion der Inferenzkosten ohne Qualitätsverlust.
Robustheit: Vermeidung von „Overthinking" in einfachen Schritten und Sicherstellung von „Deep Thinking" in kritischen Momenten.
Plug-and-Play: Das Framework ist modellagnostisch und kann in bestehende Agenten-Architekturen integriert werden.

Die Arbeit zeigt, dass adaptive Reasoning-Strategien essenziell sind, um die Balance zwischen Leistung und Ressourcennutzung in autonomen Agenten zu optimieren, und legt den Grundstein für zukünftige Entwicklungen in Richtung multimodaler und noch effizienterer Agentensysteme.

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Das alte Problem: „Den ganzen Tag im Marathon-Modus"

Die Lösung: ARES – Der intelligente Manager

Wie lernt ARES das? (Die Trainingsphase)

Das Ergebnis: Mehr Leistung, weniger Kosten

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: ARES Framework

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes