HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

Each language version is independently generated for its own context, not a direct translation.

HiMAC: De Slimme Architect voor Lange Reisplannen

Stel je voor dat je een grote, ingewikkelde reis moet plannen. Je hebt een doel: "Ga naar Parijs, bezoek het Louvre, koop een souvenir en kom veilig terug."

Het oude probleem: De "Alles-in-één" Agent
Tot nu toe probeerden slimme computers (LLM-agents) dit alles in één keer te doen. Ze dachten en handelden tegelijkertijd, alsof je in één adem een reisplan schrijft, een vliegticket boekt, een taxi belt en de deur uitloopt.
Het probleem? Als je in stap 1 een klein foutje maakt (bijvoorbeeld: "Ik ga naar Londen" in plaats van Parijs), dan is de hele reis al mislukt. De computer raakt verdwaald in de details, vergeet het grote doel en maakt steeds meer fouten. Dit noemen de auteurs een "vlakke" aanpak: alles ligt op één hoop, en als één steen wegzakt, stort de hele muur in.

De oplossing: HiMAC (De Architect en de Bouwer)
De auteurs van dit paper, HiMAC, zeggen: "Laten we het anders aanpakken. Laten we een team maken met twee rollen."

De Macro-Strateeg (De Architect):
Deze persoon kijkt naar het grote plaatje. Hij maakt geen vliegtickets of koopt geen brood. Hij maakt een blauwdruk (een plan).
- Voorbeeld: "Stap 1: Ga naar het vliegveld. Stap 2: Vlieg naar Parijs. Stap 3: Loop naar het Louvre."
- Deze strateeg zorgt ervoor dat het plan logisch is, voordat er überhaupt iets wordt gedaan.
De Micro-Executor (De Bouwer):
Deze persoon krijgt het blauwdruk van de Architect. Zijn enige taak is: "Voer Stap 1 uit." Als Stap 1 klaar is, kijkt hij of het gelukt is, en gaat dan pas naar Stap 2.
- Hij hoeft niet na te denken over de hele reis, alleen over de huidige taak. Als hij een fout maakt bij het kopen van een ticket, is dat niet het einde van de wereld; hij kan het proberen opnieuw doen voor die ene stap, zonder dat de hele reis in chaos belandt.

Hoe leren ze samen? (De "Oefenmethode")
Het lastige is: hoe leer je deze twee samenwerken zonder dat ze elkaar verwarren? Als de Architect een plan maakt dat de Bouwer niet kan uitvoeren, is dat frustrerend. En als de Bouwer slecht wordt, denkt de Architect dat zijn plan slecht is.

HiMAC gebruikt een slimme truc, zoals een danspartner-oefening:

Fase 1 (De Architect oefent): De Bouwer doet alsof hij perfect is (hij is "bevroren"). De Architect probeert verschillende plannen. Als een plan werkt met de perfecte Bouwer, krijgt de Architect een beloning. Zo leert hij betere plannen te maken.
Fase 2 (De Bouwer oefent): Nu kiezen ze het beste plan dat de Architect heeft bedacht. De Architect doet nu niets meer. De Bouwer oefent alleen maar om dat ene specifieke plan uit te voeren. Zo wordt hij steeds beter in die specifieke taak.

Ze wisselen hiermee af. De Architect wordt beter, dus hij maakt complexere plannen. De Bouwer wordt beter, dus hij kan die complexere plannen uitvoeren. Ze groeien samen op, zonder elkaar te blokkeren.

Waarom is dit zo goed?
De paper toont aan dat deze methode veel sneller en slimmer is dan de oude methoden.

Minder fouten: Omdat de fouten van de Bouwer niet de hele reis verpesten, blijft het team op koers.
Minder oefenen: Ze bereiken een hoger niveau met minder trainingstijd (ze zijn "sample efficient").
Zelfcontrole: De slimme Architect leert zelfs om zichzelf te controleren. Bijvoorbeeld: "Ik heb de sleutel gevonden, maar laat me eerst kijken of het wel de juiste sleutel is voordat ik de deur openmaak."

Kortom:
HiMAC leert computers niet om "slimmer" te worden door ze groter te maken (meer geheugen), maar door ze slimmer te organiseren. Het is het verschil tussen een chaotische groep mensen die allemaal tegelijk proberen een huis te bouwen, en een professioneel team met een architect en een bouwvakker die perfect op elkaar zijn ingespeeld. Hierdoor kunnen ze zelfs de langste en moeilijkste taken aanpakken zonder in paniek te raken.

Each language version is independently generated for its own context, not a direct translation.

Titel: HiMAC: Hiërarchisch Macro-Micro Leren voor Lang-Horizon LLM-Agenten

Auteurs: Hongbo Jin, Rongpeng Zhu, Jiayu Ding, Wenhao Zhang, en Ge Li (Peking University).

1. Het Probleem

Grote Taalmodellen (LLM's) hebben sterke vaardigheden getoond in interactieve besluitvorming, maar ze kampen met fundamentele beperkingen bij lang-horizon taken (taken die veel stappen vereisen). Bestaande benaderingen vertrouwen voornamelijk op "flats" (vlakke) autoregressieve beleidsmodellen, waarbij hoog-niveau redenering en laag-niveau acties worden gegenereerd in één enkele token-sequentie.

Dit leidt tot drie gekoppelde faalmodi:

Exponentiële exploratiecomplexiteit: De agent moet een enorm combinatorisch zoekruimte navigeren met een myopische "next-token" voorspelling.
Vertraagde credit assignment: Het is moeilijk om te bepalen welke specifieke stap in een lange keten verantwoordelijk is voor succes of mislukking.
Semantische drift: Kleine fouten in vroege stappen cumuleren en leiden tot onomkeerbare mislukkingen, waarbij de agent het globale doel uit het oog verliest.

De auteurs stellen dat het vertrouwen op de inherente redeneercapaciteit van generieke LLM's niet voldoende is; er is een structurele inductieve bias nodig om globaal plannen te ontkoppelen van lokale controle.

2. Methodologie: HiMAC

HiMAC (Hierarchical Macro-Micro Agentic Control) is een hiërarchisch RL-framework dat lang-horizon besluitvorming expliciet decomposeert in twee niveaus: Macro-planning en Micro-executie.

A. Architectuur

Het probleem wordt gemodelleerd als een Goal-Conditioned POMDP met een gestructureerde "Blueprint" ( $z$ ):

Macro-Policy (Planner): Genereert een gestructureerde blauwdruk, een reeks natuurlijke taal sub-doelen ( $g_1, ..., g_K$ ) die het lange-termijn doel decomponeren in hanteerbare mijlpalen.
Micro-Policy (Executor): Voert de blauwdruk uit door atomaire acties te genereren, gekonditioneerd op het huidige sub-doel. De agent schakelt pas naar het volgende sub-doel wanneer een specifiek <sub_done> token wordt gegenereerd.

B. Critic-Free Hiërarchische Policy Optimalisatie

Om het trainen van deze hiërarchie efficiënt te maken zonder onstabiele waarde-netwerken (critics), breiden de auteurs Group Relative Policy Optimization (GRPO) uit naar een tweeniveau-structuur:

Macro-Objectief: Een groep van $G$ kandidaat-blauwdrukken wordt gegenereerd. Elke blauwdruk wordt geëvalueerd door de huidige micro-policy (in inferentiemodus) om een return te krijgen. De voordeel-schatting (advantage) wordt berekend binnen deze groep van blauwdrukken. Dit isoleert de kwaliteit van het plan van de uitvoeringsvariatie.
Micro-Objectief: Voor een vaste, hoog-vertrouwde blauwdruk ( $z^*$ ) wordt een groep van $M$ uitvoeringstrajecten gegenereerd. De voordeel-schatting wordt berekend binnen deze groep van trajecten, wat zorgt voor een schone leer-signal voor de uitvoering.

C. Iteratieve Co-evolutie Training

Om het probleem van non-stationariteit op te lossen (waarbij de planner en executor elkaar continu veranderen), introduceert HiMAC een trainingsstrategie met twee afwisselende fasen:

Macro-Exploratie-fase: De planner wordt geüpdatet terwijl de executor vaststaat (geen gradients). Dit levert een deterministische return-signal op voor de planner.
Micro-Adaptatie-fase: De beste blauwdruk van de vorige fase wordt gefixeerd als een constante conditie. De executor wordt geüpdatet om deze specifieke blauwdruk zo goed mogelijk uit te voeren.

Deze afwisseling converteert het instabiele tweeniveau-probleem naar een reeks stationaire single-level updates.

3. Belangrijkste Bijdragen

HiMAC Framework: Een nieuw framework dat lang-horizon taken decomposeert in blauwdruk-generatie en doel-geconditioneerde uitvoering, wat de exploratiecomplexiteit en foutpropagatie drastisch reduceert.
Critic-Free Hiërarchische Optimalisatie: Een nieuwe GRPO-variant die groepsgerelativeerde voordelen toepast op zowel het plannings- als het uitvoeringsniveau, waardoor precieze credit assignment mogelijk is zonder parametrische waarde-netwerken.
Iteratieve Co-evolutie: Een trainingsstrategie die non-stationariteit oplost door plannen en uitvoeren afwisselend te optimaliseren, wat leidt tot een natuurlijk leercurriculum.
State-of-the-Art Resultaten: HiMAC presteert superieur op diverse benchmarks, zowel tekst-gebaseerd als visueel-gegrond, met aanzienlijk betere sample-efficiëntie.

4. Resultaten

De auteurs hebben HiMAC getest op drie benchmarks: ALFWorld (embodied reasoning), WebShop (webnavigatie met ruis), en Sokoban (visueel ruimtelijk plannen).

ALFWorld: Met een 1.5B parameter model bereikte HiMAC een succesratio van 89,9%, wat 3,8% hoger is dan de sterkste RL-baseline (GiGPO). Met een 7B model steeg dit naar 92,1%.
WebShop: HiMAC behaalde een succesratio van 83,4% (met 1.5B model), wat een verbetering is van 16% ten opzichte van de beste RL-baseline (67,4%). Dit is cruciaal omdat WebShop zeer gevoelig is voor context-drift.
Sokoban: HiMAC behaalde 87,5% succes met een 7B VLM, wat 4,7 punten beter is dan GiGPO.
Sample Efficiency: HiMAC bereikt de doel-succespercentages met aanzienlijk minder trainingsiteraties dan flat-policy baselines (bijvoorbeeld 220 iteraties voor WebShop vs. 380 voor GRPO).
Emergent Gedrag: Kwalitatieve analyse toont aan dat de planner spontaan zelf-verificatie gedrag ontwikkelt (bijv. het controleren van inventaris) naarmate het trainen vordert, een gedrag dat niet aanwezig was in vlakke baselines.

5. Betekenis en Conclusie

Het paper concludeert dat het introduceren van een gestructureerde hiërarchie een cruciale factor is voor robuuste lang-horizon agent-intelligentie, zelfs belangrijker dan het simpelweg vergroten van de modelgrootte.

De kerninzichten zijn:

Het ontkoppelen van plannen en uitvoeren vermindert de effectieve zoekruimte en voorkomt dat fouten zich exponentieel voortplanten.
Critic-free methoden kunnen effectief worden toegepast op hiërarchische structuren door middel van groepsgerelativeerde optimalisatie.
De co-evolutie van planner en executor creëert een natuurlijk curriculum waarbij de agent geleidelijk complexere strategieën leert zonder expliciete difficulty scheduling.

HiMAC biedt een schaalbare route voor het ontwikkelen van autonome agenten die complexe, real-world taken kunnen aanpakken, waarbij structurele inductieve biases de prestaties aanzienlijk verbeteren boven puur schaalvergroting van modellen.

HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

Titel: HiMAC: Hiërarchisch Macro-Micro Leren voor Lang-Horizon LLM-Agenten

1. Het Probleem

2. Methodologie: HiMAC

A. Architectuur

B. Critic-Free Hiërarchische Policy Optimalisatie

C. Iteratieve Co-evolutie Training

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank