HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents

Dit paper introduceert HiMAC, een hiërarchisch versterkingsleerframework dat langdurige taken voor LLM-agenten effectief aanpakt door ze op te splitsen in macro-planning en micro-uitvoering, waardoor het state-of-the-art prestaties en verbeterde steekproeffixiteit bereikt zonder afhankelijk te zijn van criticus-modellen.

Hongbo Jin, Rongpeng Zhu, Jiayu Ding, Wenhao Zhang, Ge Li

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

HiMAC: De Slimme Architect voor Lange Reisplannen

Stel je voor dat je een grote, ingewikkelde reis moet plannen. Je hebt een doel: "Ga naar Parijs, bezoek het Louvre, koop een souvenir en kom veilig terug."

Het oude probleem: De "Alles-in-één" Agent
Tot nu toe probeerden slimme computers (LLM-agents) dit alles in één keer te doen. Ze dachten en handelden tegelijkertijd, alsof je in één adem een reisplan schrijft, een vliegticket boekt, een taxi belt en de deur uitloopt.
Het probleem? Als je in stap 1 een klein foutje maakt (bijvoorbeeld: "Ik ga naar Londen" in plaats van Parijs), dan is de hele reis al mislukt. De computer raakt verdwaald in de details, vergeet het grote doel en maakt steeds meer fouten. Dit noemen de auteurs een "vlakke" aanpak: alles ligt op één hoop, en als één steen wegzakt, stort de hele muur in.

De oplossing: HiMAC (De Architect en de Bouwer)
De auteurs van dit paper, HiMAC, zeggen: "Laten we het anders aanpakken. Laten we een team maken met twee rollen."

  1. De Macro-Strateeg (De Architect):
    Deze persoon kijkt naar het grote plaatje. Hij maakt geen vliegtickets of koopt geen brood. Hij maakt een blauwdruk (een plan).

    • Voorbeeld: "Stap 1: Ga naar het vliegveld. Stap 2: Vlieg naar Parijs. Stap 3: Loop naar het Louvre."
    • Deze strateeg zorgt ervoor dat het plan logisch is, voordat er überhaupt iets wordt gedaan.
  2. De Micro-Executor (De Bouwer):
    Deze persoon krijgt het blauwdruk van de Architect. Zijn enige taak is: "Voer Stap 1 uit." Als Stap 1 klaar is, kijkt hij of het gelukt is, en gaat dan pas naar Stap 2.

    • Hij hoeft niet na te denken over de hele reis, alleen over de huidige taak. Als hij een fout maakt bij het kopen van een ticket, is dat niet het einde van de wereld; hij kan het proberen opnieuw doen voor die ene stap, zonder dat de hele reis in chaos belandt.

Hoe leren ze samen? (De "Oefenmethode")
Het lastige is: hoe leer je deze twee samenwerken zonder dat ze elkaar verwarren? Als de Architect een plan maakt dat de Bouwer niet kan uitvoeren, is dat frustrerend. En als de Bouwer slecht wordt, denkt de Architect dat zijn plan slecht is.

HiMAC gebruikt een slimme truc, zoals een danspartner-oefening:

  • Fase 1 (De Architect oefent): De Bouwer doet alsof hij perfect is (hij is "bevroren"). De Architect probeert verschillende plannen. Als een plan werkt met de perfecte Bouwer, krijgt de Architect een beloning. Zo leert hij betere plannen te maken.
  • Fase 2 (De Bouwer oefent): Nu kiezen ze het beste plan dat de Architect heeft bedacht. De Architect doet nu niets meer. De Bouwer oefent alleen maar om dat ene specifieke plan uit te voeren. Zo wordt hij steeds beter in die specifieke taak.

Ze wisselen hiermee af. De Architect wordt beter, dus hij maakt complexere plannen. De Bouwer wordt beter, dus hij kan die complexere plannen uitvoeren. Ze groeien samen op, zonder elkaar te blokkeren.

Waarom is dit zo goed?
De paper toont aan dat deze methode veel sneller en slimmer is dan de oude methoden.

  • Minder fouten: Omdat de fouten van de Bouwer niet de hele reis verpesten, blijft het team op koers.
  • Minder oefenen: Ze bereiken een hoger niveau met minder trainingstijd (ze zijn "sample efficient").
  • Zelfcontrole: De slimme Architect leert zelfs om zichzelf te controleren. Bijvoorbeeld: "Ik heb de sleutel gevonden, maar laat me eerst kijken of het wel de juiste sleutel is voordat ik de deur openmaak."

Kortom:
HiMAC leert computers niet om "slimmer" te worden door ze groter te maken (meer geheugen), maar door ze slimmer te organiseren. Het is het verschil tussen een chaotische groep mensen die allemaal tegelijk proberen een huis te bouwen, en een professioneel team met een architect en een bouwvakker die perfect op elkaar zijn ingespeeld. Hierdoor kunnen ze zelfs de langste en moeilijkste taken aanpakken zonder in paniek te raken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →