Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je een superintelligente robot (een LLM of taalmodel) hebt die complexe taken moet uitvoeren, zoals het schrijven van software, het zoeken naar informatie op het internet of het besturen van een robot. Om dit te doen, moet de robot niet alleen nadenken, maar ook "handelen": code uitvoeren, websites bezoeken of rekenkracht gebruiken om zijn antwoorden te controleren.
Dit noemen we Agentic Reinforcement Learning. Het is als het trainen van een atleet: de robot probeert iets, krijgt feedback, en leert van zijn fouten.
Het Probleem: De "Vaste Woning" die Leegstaat
In de huidige manier van werken (zoals beschreven in het artikel), is het alsof je voor elke taak die de robot moet doen, een vast huis bouwt met een eigen elektriciteitscentrale, een eigen keuken en een eigen garage.
- Het scenario: De robot moet een stukje code schrijven. Daarvoor krijgt hij een hele server (een "huis") toegewezen.
- Het probleem: De robot denkt eerst na (dit duurt even), schrijft dan de code (gebruikt de server), en wacht dan weer even op de volgende instructie.
- De verspilling: Terwijl de robot nadenkt, staat die dure server leeg. Hij staat er maar te wachten, terwijl hij eigenlijk 90% van de tijd niet wordt gebruikt. Het is alsof je een gigantisch, duur hotelhuur voor één persoon huurt, terwijl die persoon maar 10 minuten per dag in de kamer is. De rest van de tijd staat de kamer leeg, maar jij betaalt er toch voor.
Dit gebeurt op twee niveaus:
- Per taak: Voor één lange reis (een "traject") wordt een hele server vastgehouden, ook als de robot even nadenkt.
- Per project: Verschillende projecten krijgen elk hun eigen gescheiden servers, zelfs als ze op hetzelfde moment weinig te doen hebben.
Het resultaat? De robot moet vaak wachten (hij staat in de rij), het trainen gaat langzaam, en het kost een fortuin aan dure computerkracht die eigenlijk niet wordt gebruikt.
De Oplossing: ARL-Tangram (De Slimme Regisseur)
De auteurs van dit paper hebben ARL-Tangram bedacht. De naam "Tangram" verwijst naar dat Chinese legpuzzelspel waar je met een paar vormen eindeloos veel figuren kunt maken. Het idee is hetzelfde: flexibiliteit.
In plaats van vaste huizen, heeft ARL-Tangram een groot, slim magazijn met losse onderdelen (CPU's, GPU's, geheugen) die ze direct kunnen toewijzen.
Hoe werkt het? (De Analogie van de Pizza)
Stel je voor dat je een pizza wilt maken (de taak van de robot).
- Oude manier: Je huurt een hele keuken, met een oven, een tafel en een bakker, voor de hele dag. Zelfs als je alleen maar even de saus doet, staat de hele keuken stil.
- ARL-Tangram manier: Je hebt een centrale kok (de scheduler).
- De robot zegt: "Ik wil nu even de saus maken."
- De centrale kok pakt snel een klein stukje van een oven en een beetje werkblad uit het magazijn.
- De robot maakt de saus in 2 seconden.
- De robot zegt: "Nu moet ik even nadenken over de topping."
- De centrale kok pakt het werkstuk en de oven direct weer terug en geeft ze aan iemand anders die ze nu nodig heeft.
- Als de robot weer klaar is om te werken, krijgt hij direct weer een stukje ruimte.
Dit noemen ze "Action-level scheduling" (plannen op het niveau van een enkele actie). Ze breken de lange "reis" van de robot op in kleine, losse stappen en delen de dure apparatuur slim uit.
De Drie Slimme Trucs van ARL-Tangram
De "Tangram"-Formule:
Het systeem begrijpt dat niet alles hetzelfde is. Sommige taken hebben veel rekenkracht nodig (CPU), andere hebben speciale videokaarten nodig (GPU). Het systeem vertaalt alles naar één taal: "Ik heb X stuks van dit nodig." Zo kan het alles vergelijken en plannen.De Slimme Regisseur (Elastische Planning):
De regisseur kijkt niet alleen naar wie er wacht, maar ook naar hoe snel iets kan gaan als je meer hulp krijgt.- Voorbeeld: Als de robot 100 testjes moet draaien, kan hij dat met 1 computer doen (duurt lang) of met 10 computers tegelijk (duurt kort). De regisseur kijkt: "Hebben we nu ruimte voor 10 computers? Ja? Doe het dan!" Zo wordt alles sneller. Als er geen ruimte is, doet hij het gewoon met 1, maar wacht hij niet lang in de rij.
De Speciale Bewaarders (Resource Managers):
Het systeem heeft speciale bewakers voor verschillende soorten apparatuur:- CPU-bewaker: Zorgt dat de werkplekken snel worden opgeborgen en weer uitgepakt, zonder dat de robot zijn werk verliest.
- GPU-bewaker: Dit is lastiger, want videokaarten zijn duur en traag om op te starten. Deze bewaker houdt een "cache" (een voorraad) van opgestarte modellen in het geheugen. Als de robot iets nodig heeft, pakt hij het direct. Zo snel mogelijk wordt het weer opgeborgen als het niet nodig is, zodat de dure kaart weer vrij is voor iemand anders.
Wat is het Resultaat?
De onderzoekers hebben dit getest in de echte wereld (bijvoorbeeld voor het trainen van de MiMo-modellen van Xiaomi). De resultaten zijn indrukwekkend:
- 4,3 keer sneller: De robot moet veel minder wachten op hulp.
- 1,5 keer snellere training: Het hele leerproces gaat veel sneller.
- 71% minder kosten: Ze hebben 71% minder dure computerkracht nodig omdat ze niets meer verspillen.
Samenvatting
ARL-Tangram is als het verschil tussen het huren van een vast, leegstaand kantoor voor elke werknemer, en het hebben van een slim, gedeeld kantoorpand waar bureaus en vergaderruimtes direct worden toegewezen aan wie ze op dat moment nodig heeft.
Door de dure computerkracht niet vast te pinnen aan lange taken, maar slim en flexibel toe te wijzen aan de kleine stappen die de robot nu juist doet, wordt alles sneller, goedkoper en efficiënter. Het is de sleutel om AI-agenten echt snel en betaalbaar te maken.
Ontvang papers zoals deze in je inbox
Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.