Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Das Papier stellt Ares vor, einen Framework, der durch einen leichten Router den optimalen Rechenaufwand pro Schritt in LLM-Agenten dynamisch anpasst, um die Inferenzkosten um bis zu 52,7 % zu senken, ohne die Erfolgswahrscheinlichkeit der Aufgaben signifikant zu beeinträchtigen.

Jingbo Yang, Bairu Hou, Wei Wei, Yujia Bao, Shiyu Chang

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber auch sehr hungrigen Assistenten. Dieser Assistent ist eine Künstliche Intelligenz (ein sogenanntes „Large Language Model" oder LLM), die dir bei komplexen Aufgaben hilft, wie zum Beispiel: „Buche mir einen Flug, finde die besten Preise für ein Hotel und recherchiere, ob das Wetter am Zielort gut wird."

Das Problem ist: Dieser Assistent ist sehr teuer im Unterhalt. Jedes Mal, wenn er nachdenkt („reasoning"), verbraucht er Rechenleistung und kostet Geld.

Das alte Problem: „Den ganzen Tag im Marathon-Modus"

Bisher gab es zwei einfache, aber ineffiziente Möglichkeiten, mit diesem Assistenten zu arbeiten:

  1. Der „Immer-Genie"-Modus: Du zwingst den Assistenten, bei jeder kleinen Frage extrem tief nachzudenken.
    • Analogie: Es ist so, als würdest du einen Weltmeister im Schach spielen lassen, nur um zu entscheiden, ob du heute Morgen einen Apfel oder eine Banane essen sollst. Das Ergebnis ist perfekt, aber du hast unnötig viel Energie (und Geld) verschwendet.
  2. Der „Immer-Schnell"-Modus: Du sagst dem Assistenten, er soll immer nur schnell und oberflächlich arbeiten, um Kosten zu sparen.
    • Analogie: Du lässt einen Sprinter einen Marathon laufen. Bei einfachen Aufgaben geht es schnell, aber sobald es kompliziert wird (z. B. eine komplexe Flugbuchung), macht er Fehler, weil er nicht genug nachgedacht hat.

Die Forscher haben festgestellt: Keine dieser beiden Strategien ist ideal. Manchmal braucht man den Weltmeister, manchmal reicht der Sprinter.

Die Lösung: ARES – Der intelligente Manager

Hier kommt ARES ins Spiel. ARES ist wie ein kluger Manager, der neben dem Assistenten sitzt und genau beobachtet, was gerade passiert.

Stell dir ARES als einen Verkehrspolizisten vor, der den Fluss des Denkens steuert:

  • Einfache Aufgaben: Wenn der Assistent nur eine einfache URL öffnen muss oder eine Telefonnummer sucht, schreit der Manager: „Hey, das ist einfach! Mach das schnell im 'Sprint-Modus'!" (Niedriger Aufwand).
  • Schwierige Aufgaben: Wenn der Assistent vor einer komplexen Entscheidung steht, wie „Welche Flugroute ist die beste unter Berücksichtigung von Stornokosten und Wetter?", ruft der Manager: „Stopp! Das ist kritisch! Denk jetzt langsam und gründlich nach im 'Genie-Modus'!" (Hoher Aufwand).

Wie lernt ARES das? (Die Trainingsphase)

Damit der Manager weiß, wann er was sagen muss, hat das Team ein cleveres Trainingssystem entwickelt:

  1. Beobachtung: Zuerst lassen sie den Assistenten mit dem „Genie-Modus" eine Aufgabe perfekt lösen.
  2. Rückwärts-Analyse: Dann schauen sie sich jeden einzelnen Schritt dieser perfekten Lösung an. Sie fragen sich: „Hätte der Assistent diesen Schritt auch geschafft, wenn er nur 'Sprint-Modus' benutzt hätte?"
    • Wenn ja: „Super, das war zu viel Aufwand! Das war ein 'Sprint'-Schritt."
    • Wenn nein: „Oh, hier war der Sprint zu schwach. Das war ein 'Genie'-Schritt."
  3. Der kleine Helfer: Sie trainieren einen kleinen, schnellen Computer (den „Router"), der diese Muster lernt. Dieser kleine Helfer ist so schlau, dass er in Zukunft sofort erkennt: „Aha, hier müssen wir schnell sein, dort müssen wir tief nachdenken."

Das Ergebnis: Mehr Leistung, weniger Kosten

Die Ergebnisse sind beeindruckend:

  • Geld sparen: ARES hat den Verbrauch an „Denk-Zeit" (Tokens) um bis zu 52,7 % reduziert. Das ist, als würdest du dein Smartphone-Akku um die Hälfte länger halten, ohne dass die Leistung schlechter wird.
  • Kein Qualitätsverlust: Der Assistent macht fast genauso viele Aufgaben richtig wie im teuren „Immer-Genie"-Modus.
  • Selbstkorrektur: Besonders cool ist, dass ARES lernt, wann der Assistent „überdenkt" (Overthinking). Manchmal macht ein zu tiefes Nachdenken sogar Fehler, weil der Assistent sich in Details verliert. ARES verhindert das, indem es den Assistenten zurück auf den richtigen Weg lenkt.

Zusammenfassung in einem Satz

ARES ist wie ein intelligenter Sparfuchs für KI-Agenten, der genau weiß, wann man schnell durch die Welt sprinten darf und wann man anhalten und genau nachdenken muss, um Fehler zu vermeiden und Geld zu sparen.

Durch diese adaptive Methode können KI-Assistenten in Zukunft viel häufiger und günstiger eingesetzt werden, ohne dass wir auf ihre Intelligenz verzichten müssen.