One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

Het artikel introduceert ScaleZero, een efficiënt wereldmodel dat door middel van een Mixture-of-Experts-architectuur en een dynamische parameter-schaalstrategie (DPS) gradientconflicten oplost en met slechts 71,5% van de interacties prestaties bereikt die vergelijkbaar zijn met gespecialiseerde single-task agents voor heterogene multi-task planning.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente robot wilt bouwen die niet alleen één spelletje kan spelen, maar alles kan doen: van het spelen van Pong (een heel simpel spelletje met een balletje en een batje) tot het oplossen van complexe avonturen in een tekstverhaal, en zelfs het besturen van een robotarm die een kopje koffie moet pakken.

Het probleem is dat als je deze robot één brein geeft voor al deze taken, het brein vaak in de war raakt. Het is alsof je iemand probeert te leren zwemmen, piano spelen en wiskunde doen, allemaal tegelijk, door ze in één kamer te zetten. De robot wordt dan goed in het zwemmen, maar vergeet hoe hij piano moet spelen, of hij raakt vast in de wiskunde. In de wetenschap noemen we dit "plasticiteit-collaps": het brein stopt met leren omdat het te veel conflicten heeft.

De auteurs van dit paper hebben een oplossing bedacht genaamd ScaleZero. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Brein met "Specialisten" (De MoE Architectuur)

Stel je een groot kantoor voor. In een oud kantoor (de oude modellen) werkt iedereen in één grote open ruimte. Als de manager (de robot) een taak geeft, proberen iedereen mee te werken. Als de ene taak "rekenen" is en de andere "tekenen", schreeuwt de rekenaar tegen de tekenaar: "Nee, ik moet dit doen!" en vice versa. Het resultaat is chaos en niemand wordt goed.

ScaleZero verandert dit kantoor in een gebouw met specialisten.

  • Er is een router (een slimme secretaresse) die kijkt naar de taak.
  • Als het een rekenopdracht is, stuurt ze het naar het kantoor met de wiskundigen.
  • Als het een tekenopdracht is, stuurt ze het naar de kunstenaars.
  • Ze werken niet allemaal tegelijk aan alles. Ze werken alleen aan wat ze goed kunnen.

Dit heet in de tech-taal een Mixture-of-Experts (MoE) architectuur. Het zorgt ervoor dat de robot niet in de war raakt en blijft leren, zelfs als de taken heel verschillend zijn.

2. De Slimme Budgetplanner (Dynamic Parameter Scaling)

Nu hebben we een kantoor met specialisten, maar we hebben ook een probleem: geld en tijd.
Stel je voor dat je een robot traint om 18 verschillende taken te leren. De robot is al heel goed in "taak 1" (bijvoorbeeld een bal in een kuip vangen), maar worstelt nog met "taak 18" (een cheeta laten rennen).

In een normaal systeem zou de robot blijven oefenen aan taak 1, ook al is hij al perfect. Dat is zonde van de tijd.
ScaleZero gebruikt een slimme strategie genaamd Dynamic Parameter Scaling (DPS):

  • De "Gereed" Check: Zodra de robot taak 1 onder de knie heeft, stopt hij daar direct mee. Hij "bevriest" die kennis (alsof je een boek dichtdoet en op de plank legt).
  • Nieuwe Hulp: Voor de moeilijke taken die hij nog niet kan, haalt hij extra hulp bij. Hij voegt kleine, flexibele modules toe (zoals LoRA-adapters, denk aan extra gereedschap of een nieuwe set gereedschappen) die specifiek zijn voor die moeilijke taak.
  • Dynamisch Groeien: Het systeem groeit mee met de moeilijkheid. Als er een nieuwe, heel moeilijke taak komt, krijgt de robot extra "hersencellen" toegewezen, maar alleen voor die taak.

Dit is alsof je een student bent die eerst zijn basiswiskunde haalt. Zodra hij dat kan, stopt hij met oefenen op basiswiskunde en begint hij met de moeilijke natuurkunde. Hij gebruikt zijn tijd veel efficiënter.

Wat is het resultaat?

De robot ScaleZero is getest op heel veel verschillende dingen:

  • Atari-spelletjes (oude videospelletjes).
  • DMC (robotarmen en -beesten laten bewegen).
  • Jericho (tekstavonturen waar je moet lezen en beslissingen moet nemen).

De resultaten:

  1. Één model voor alles: De robot doet het net zo goed als 26 verschillende robots die elk alleen één spelletje hebben geoefend.
  2. Efficiëntie: Door de slimme "budgetplanner" (DPS) te gebruiken, heeft de robot 28,5% minder oefentijd nodig om even goed te worden. Hij verspilde geen tijd aan taken die hij al kon.

Samenvattend

Stel je voor dat je een meesterkok bent.

  • Oude methode: Je probeert elke dag 100 verschillende gerechten te koken tegelijk in één pan. Het wordt een rommeltje en niets smaakt goed.
  • ScaleZero methode: Je hebt een keuken met speciale kookstations (MoE). Als je een vis moet bakken, ga je naar het visstation. Als je een taart moet bakken, ga je naar het bakstation.
  • De slimme toevoeging (DPS): Zodra je weet hoe je een taart moet bakken, stop je met oefenen op taarten en haal je een nieuw, speciaal station voor het bakken van brood. Je verspil je tijd niet aan dingen die je al kunt.

Dit paper laat zien dat we met deze slimme architectuur echt algemene robots kunnen bouwen die alles kunnen leren, zonder dat ze gek worden van de hoeveelheid informatie.