Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, autonome assistent hebt die complexe taken voor je moet uitvoeren, zoals het boeken van een vlucht, het zoeken naar specifieke informatie op het internet of het navigeren door een website. Deze assistent is een LLM-agent (een soort super-intelligente computer).

Tot nu toe was er een groot probleem: om deze taken goed te doen, moest de assistent bij elke stap heel diep nadenken. Het was alsof je een zware, dure vrachtwagen gebruikt om een briefje naar de buren te brengen. Het werkt wel, maar het kost enorm veel brandstof (rekenkracht en geld) en tijd.

De auteurs van dit paper, ARES, hebben een slimme oplossing bedacht. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: "Overdenken" kost geld

Stel je voor dat je een reisplanner bent.

Stap 1: Je moet een deur openen. Dit is makkelijk. Je hoeft er niet uren over na te denken.
Stap 2: Je moet een ingewikkeld navigatiesysteem gebruiken om een verlaten weg te vinden. Dit vereist veel concentratie.

Vroeger deden deze agenten bij elke stap alsof ze een ingewikkelde weg moesten vinden. Ze gebruikten hun "hoge denkkracht" (High Effort) voor alles. Dat is als een Formule-1-auto gebruiken om naar de supermarkt te rijden: het gaat snel, maar je verbruikt een fortuin aan benzine.

Als je ze juist altijd op "laag vermogen" zet om geld te besparen, raken ze in de war bij de moeilijke stappen en maken ze fouten.

2. De Oplossing: ARES (De Slimme Verkeersregelaar)

ARES is een klein, lichtgewicht "verkeersregelaar" die naast de grote assistent werkt. Zijn enige taak is om bij elke stap te beslissen: "Moeten we nu hard werken, of kunnen we het rustig aan doen?"

Bij de deur openen: De verkeersregelaar zegt: "Geen probleem, gebruik maar de 'laag' stand." (Snel en goedkoop).
Bij de ingewikkelde weg: De verkeersregelaar zegt: "Dit is lastig, schakel over naar 'hoog' vermogen." (Veilig en accuraat).

Dit heet Adaptive Reasoning Effort Selection (Adaptieve selectie van denkinspanning).

3. Hoe leert deze regelaar dit? (De Opleiding)

De auteurs hebben de regelaar niet zomaar op de weg gegooid. Ze hebben een slim trainingsprogramma ontwikkeld:

Fase 1: De perfecte route vinden. Eerst laten ze de assistent met zijn maximale kracht een taak perfect uitvoeren. Dit is de "goedgekeurde route".
Fase 2: De minimale inspanning testen. Vervolgens kijken ze stap voor stap: "Had je hier echt al je kracht nodig, of had je dit ook met minder kunnen doen?" Ze testen dit herhaaldelijk om te zien wat het minimale niveau is dat nog steeds werkt.
Fase 3: De 'Waarom'-uitleg. De regelaar leert niet alleen wat te kiezen, maar ook waarom. Hij leert een korte reden te bedenken (bijvoorbeeld: "Deze stap is makkelijk omdat het een simpele klik is"). Dit helpt hem om betere beslissingen te nemen.
Fase 4: Reinforcement Learning (Leren door ervaring). De regelaar krijgt beloningen als hij slim bespaart zonder fouten te maken, en straf als hij te veel brandstof verbruikt of de taak laat mislukken.

4. De Resultaten: Meer met minder

In de tests (op taken zoals het boeken van vluchten of diep internetonderzoek) bleek ARES wonderen te verrichten:

Brandstofbesparing: De agenten gebruikten tot 52,7% minder rekenkracht (tokens) dan wanneer ze altijd op "hoog vermogen" stonden.
Geen kwaliteitsverlies: Ondanks dat ze minder werk deden, bleven ze net zo goed presteren. Soms zelfs beter, omdat ze minder snel "overdachten" en daardoor minder fouten maakten.
Flexibiliteit: Het systeem werkt met verschillende soorten assistenten en taken.

De Metafoor: De Slimme Chauffeur

Stel je voor dat je een chauffeur hebt die een lange rit maakt:

De oude methode: De chauffeur rijdt de hele weg met de motor op volle toeren, ook in de stad en op de snelweg. Het is snel, maar je tank is snel leeg.
De ARES-methode: De chauffeur heeft een slimme navigatie die zegt: "In de stad (makkelijke stap) ga je rustig rijden. Op de berg (moeilijke stap) schakel je naar de lage versnelling met veel kracht."
Het resultaat: Je komt precies even snel en veilig aan op je bestemming, maar je hebt de helft minder benzine verbruikt.

Kortom: ARES zorgt ervoor dat slimme AI-agenten niet meer "overal even hard" werken, maar precies de juiste hoeveelheid energie gebruiken op het juiste moment. Dit maakt AI goedkoper, sneller en groener, zonder dat het slimmer wordt.

Each language version is independently generated for its own context, not a direct translation.

Titel: ARES: Adaptieve Selectie van Redeneerinspanning voor Efficiënte LLM-Agenten

1. Het Probleem

Moderne autonome agenten, aangedreven door "denkende" Large Language Models (LLMs), bereiken hoge nauwkeurigheid door uitgebreide Chain-of-Thought (CoT) redenering. Dit leidt echter tot aanzienlijke inferentiekosten, aangezien er bij elke stap in een multi-stap taak veel redeneertokens worden gegenereerd.

Hoewel veel moderne LLMs (zoals GPT-5 of Gemini-3) nu configurabele "redeneerniveaus" (bijv. hoog, medium, laag) ondersteunen, zijn statische strategieën om deze niveaus te kiezen vaak suboptimaal:

Vaste lage inspanning: Het constant gebruiken van een laag redeneerniveau leidt tot significante prestatieverlies (bijv. een daling van bijna 20% in complexere taken).
Willekeurige selectie: Willekeurig kiezen tussen niveaus behoudt de nauwkeurigheid niet en biedt geen betekenisvolle kostenreductie.
Vaste hoge inspanning: Dit is kostenefficiënt maar verspilt middelen aan eenvoudige stappen (zoals het openen van een URL) die geen diep redeneren vereisen.

De kernuitdaging is om een dynamisch systeem te creëren dat de juiste hoeveelheid redeneerinspanning toewijst aan elke individuele stap in een agent-traject, zonder de algehele taaknauwkeurigheid te compromitteren.

2. Methodologie: Het ARES Framework

ARES (Adaptive Reasoning Effort Selection) is een framework dat een lichtgewicht router gebruikt om per stap de meest geschikte redeneerniveau te voorspellen. Het systeem is model-agnostisch en kan worden geïntegreerd in bestaande agent-architecturen.

De Kerncomponenten:

De Router: Een klein LLM (in het paper getraind als Qwen3-1.7B) dat de interactiegeschiedenis ( $h_t$ ) en de huidige observatie ( $o_t$ ) analyseert om het optimale redeneerniveau ( $e_t \in \{laag, medium, hoog\}$ ) te voorspellen voor de volgende stap.
KV-Cache Hergebruik: In tegenstelling tot traditionele "model routing" (waarbij verschillende modellen worden geselecteerd), gebruikt ARES verschillende redeneermodi binnen één model. Dit zorgt ervoor dat de Key-Value (KV) cache kan worden hergebruikt, wat de latentie en computatiekosten voor het schakelen minimaliseert.

Het Trainingspipeline (3 Fasen):
Om de router te trainen, ontwikkelen de auteurs een geautomatiseerde data-generatiepijplijn:

Fase 1: Trajectieverzameling: Er worden succesvolle trajecten verzameld met het maximale redeneerniveau ("hoog"). De meest beknopte succesvolle trajecten worden geselecteerd als referentie (ground truth) om de "essentiële" redenering te isoleren.
Fase 2: Redeneerinspanning Annotatie: Voor elke stap in het referentietraject wordt getest wat het minimale vereiste redeneerniveau is om die specifieke stap correct uit te voeren. Dit gebeurt door meerdere pogingen te doen met verschillende niveaus en de output te verifiëren (via een LLM-judge of functionele vergelijking). Het laagste niveau dat consistent correct is, wordt als label gebruikt.
Fase 3: Rationale Generatie: Een krachtiger "teacher model" genereert een korte redenering (rationale) die uitlegt waarom een bepaald niveau nodig is (bijv. complexiteit van de observatie, voortgang van de taak). De router wordt getraind om eerst deze rationale te genereren en daarna het label te voorspellen. Dit verbetert de besluitvorming.

Optimalisatie:

Supervised Fine-Tuning (SFT): De router wordt eerst getraind om de labels en rationale te voorspellen.
Reinforcement Learning (RL): Om de beperkingen van SFT (zoals het niet kunnen herstellen van eerdere fouten) te overwinnen, wordt de router verder getraind met GRPO (Group Relative Policy Optimization). De beloning (reward) functie bestaat uit:
- Outcome Reward: Hoog voor taakslagen.
- Cost Reward: Negatieve straf voor het gebruik van hoge inspanning (om kosten te minimaliseren), maar alleen toegepast op succesvolle trajecten om te voorkomen dat de agent faalt om kosten te besparen.
- Format Reward: Straf voor het niet volgen van het output-formaat.

3. Belangrijkste Bijdragen

Dynamische Inspanning: ARES introduceert een methode voor per-stap dynamische selectie van redeneerinspanning, specifiek ontworpen voor multi-stap agent taken, in plaats van statische configuratie.
Efficiënte Data-pijplijn: Een innovatieve aanpak om "ground truth" labels voor redeneerinspanning te genereren door succesvolle trajecten te ontleden en het minimale niveau per stap te valideren.
Integratie van Rationale: Het trainen van de router om een rationale te genereren voordat het besluit wordt genomen, wat de nauwkeurigheid van de selectie significant verbetert.
RL-Optimalisatie: Het toepassen van Reinforcement Learning om de router te leren complexe afwegingen te maken tussen kosten en succes over het hele traject heen, wat SFT alleen niet kan bereiken.

4. Resultaten

Het framework is geëvalueerd op drie verschillende benchmarks: TAU-Bench (tool-gebruik), BrowseComp-Plus (diep onderzoek) en WebArena (webnavigatie).

Kostenefficiëntie: ARES reduceert het totale aantal redeneertokens met tot wel 52,7% vergeleken met een vaste "hoge inspanning"-strategie, terwijl de taaknauwkeurigheid behouden blijft of zelfs licht verbetert.
- TAU-Bench (Retail): ~35% reductie in tokens, gelijke prestaties.
- BrowseComp-Plus: ~42% reductie in tokens.
- WebArena: ~45% reductie in tokens.
Prestaties: In sommige gevallen (zoals WebArena) presteert ARES zelfs beter dan de vaste hoge inspanning (46,5% vs 45,0%), omdat het "overdenken" (overthinking) voorkomt dat leidt tot fouten.
RL Impact: De RL-fase verbetert de resultaten verder. In de TAU-Bench Airline-domein steeg de nauwkeurigheid van 36% (SFT) naar 42% (RL) terwijl het tokenverbruik met bijna 80% daalde.
Generalisatie: De router, getraind op een kleiner model (gpt-oss-20b), generaliseert goed naar grotere modellen (gpt-oss-120b), wat aantoont dat de geleerde patronen schaal-invariant zijn.

5. Betekenis en Conclusie

ARES biedt een praktische oplossing voor het "efficiëntie-nauwkeurigheid" dilemma in LLM-agenten. Het bewijst dat niet elke stap in een complexe taak evenveel redeneerkracht nodig heeft. Door slimme, adaptieve toewijzing van redeneerinspanning:

Worden de operationele kosten van AI-agenten drastisch verlaagd.
Wordt de snelheid van inferentie verhoogd (door minder tokens).
Wordt de betrouwbaarheid van agenten verbeterd door te voorkomen dat ze "overdenken" bij eenvoudige taken of "onderdenken" bij complexe taken.

Dit werk legt de basis voor de volgende generatie kostenefficiënte, maar even krachtige autonome AI-systemen die zich kunnen aanpassen aan de complexiteit van de omgeving in real-time.

Ares: Adaptive Reasoning Effort Selection for Efficient LLM Agents

1. Het Probleem: "Overdenken" kost geld

2. De Oplossing: ARES (De Slimme Verkeersregelaar)

3. Hoe leert deze regelaar dit? (De Opleiding)

4. De Resultaten: Meer met minder

De Metafoor: De Slimme Chauffeur

Titel: ARES: Adaptieve Selectie van Redeneerinspanning voor Efficiënte LLM-Agenten

1. Het Probleem

2. Methodologie: Het ARES Framework

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics