Thousand-GPU Large-Scale Training and Optimization Recipe for AI-Native Cloud Embodied Intelligence Infrastructure

Dit paper introduceert een cloudgebaseerd, duizend-GPU trainingsplatform voor embodied intelligence dat, door optimalisaties op het gebied van data, training, modelarchitectuur en infrastructuur, de trainingstijd van het GR00T-N1.5-model met een factor 40 heeft verkort en zo een cruciale basis legt voor de ontwikkeling van autonome robots.

Chen Zhou, Haoran Sun, Hedan Yang, Jing Long, Junwu Xiong, Luqiao Wang, Mingxi Luo, Qiming Yang, Shuai Di, Song Wang, Tianyun Zhao, Wanting Xu, Wen Huang, Xiaodong Bai, Xiaomeng Tian, Xiaolong Xiang, Yicheng Gong, Yongjian Guo, Yucheng Guo, Yunxuan Ma, Yu Wei, Zhong Guan, Zhen Sun

Gepubliceerd Fri, 13 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt bouwen die niet alleen een taak kan uitvoeren, maar ook leert, denkt en aanpast aan de echte wereld, net zoals een mens. Dit noemen we "Embodied Intelligence" (Lichamelijke Intelligentie). Het probleem is dat het trainen van zo'n slimme robot enorm veel rekenkracht kost en vaak vastloopt in de techniek.

Dit paper van het team van JD.com (JDT) en verschillende universiteiten beschrijft hoe ze een reusachtige "super-supercomputer" hebben gebouwd met 1000 grafische kaarten (GPU's) om deze robots veel sneller en slimmer te maken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De Verkeersfile in de Keuken

Stel je voor dat je een enorm groot restaurant hebt waar duizenden koks (de GPU's) moeten werken om een gigantisch gerecht (het trainen van een robot) te bereiden.

  • Vroeger: De koks stonden in de weg. Sommigen wachtten op ingrediënten (data), anderen wachtten tot de oven klaar was (wachten op andere koks), en veel tijd werd verspild aan het wachten op elkaar. Het was een chaotische verkeersfile.
  • Het resultaat: Het kostte 15 uur om één ronde training te doen. Te langzaam om een slimme robot te maken.

2. De Oplossing: De "JoyBuilder" Super-Keuken

Het team heeft een volledig nieuwe keuken ontworpen (het Cloud-Native Framework) die alles soepel laat lopen. Ze hebben drie grote problemen opgelost:

A. De Data-Levering (De Ingrediënten)

  • Het oude probleem: Ingrediënten werden in kleine, onhandige doosjes aangeleverd. De koks moesten wachten tot ze alles hadden, en veel ruimte werd ingenomen door "opvulmateriaal" (lege plekken in de data).
  • De oplossing: Ze hebben een slimme transportband gebouwd.
    • Data Packing: In plaats van losse, korte zinnen, plakken ze korte zinnen aan elkaar tot één lange, perfecte zin. Zo vullen ze de kom helemaal vol zonder lege plekken.
    • Variable-Length FlashAttention: Ze snijden het "opvulmateriaal" weg. Als een zin kort is, gebruiken ze alleen de tijd voor die korte zin, in plaats van te wachten alsof het een lange zin is.
    • Resultaat: De koks hebben nooit een lege hand. De trainingstijd is van 15 uur gereduceerd naar slechts 22 minuten. Dat is een 40-voudige versnelling!

B. De Recepten (Het Model)

  • Het oude probleem: De recepten (de AI-modellen) waren vaak te zwaar en inefficiënt. Ze deden veel werk voor niets, zoals het berekenen van dingen die niet belangrijk waren.
  • De oplossing: Ze hebben de recepten "opgeruimd" en geoptimaliseerd.
    • Slimme Maskers: Ze zeggen de koks: "Bereken alleen wat er echt op het bord ligt, negeer de lege ruimte."
    • Quantization (Verdunnen): Ze hebben de ingrediënten iets "lichter" gemaakt (van 32-bit naar 8-bit), maar zonder dat de smaak (de nauwkeurigheid) verandert. Het is alsof je een zware, dichte soep maakt tot een lichte bouillon die net zo lekker smaakt, maar veel sneller te drinken is.
    • Resultaat: De robots worden 188% sneller in het leren van nieuwe vaardigheden.

C. De Werkwijze (Asynchroon Leren)

  • Het oude probleem: In de oude keuken moesten alle koks wachten tot iedereen klaar was met hun stukje taak voordat ze verder mochten. Als één kok traag was, stonden ze allemaal stil.
  • De oplossing (RL-VLA3): Ze hebben een asynchrone werkwijze ingevoerd.
    • Vergelijking: Stel je voor dat een kok (de robot) een taak doet in de wereld (de simulator). Zodra hij een stap heeft gedaan, stuurt hij het resultaat direct naar de chef. De chef hoeft niet te wachten tot de hele groep klaar is; hij pakt direct de nieuwe info en past het recept aan. Terwijl de chef aan het aanpassen is, is de kok alweer bezig met de volgende stap.
    • Resultaat: Niemand staat stil. De "doorvoer" (hoeveelheid geleerde ervaring per uur) is met wel 126% toegenomen.

3. De Test: Van Theorie naar Praktijk

Ze hebben dit systeem getest met echte robotsimulaties (zoals het oppakken van een kom of het openen van een lade).

  • De uitkomst: De robot leerde net zo snel als voorheen, maar dan in een fractie van de tijd. De robot was net zo goed in het uitvoeren van taken (soms zelfs beter), maar had veel minder tijd nodig om daar te komen.
  • De schaal: Dit werkt nu op een schaal van 1000 GPU's tegelijk. Dat is alsof je 1000 chefs hebt die perfect samenwerken in één keuken.

Waarom is dit belangrijk?

Vroeger duurde het jaren om een robot slim te maken. Met deze nieuwe "super-keuken" kan dat in dagen of weken.

  • Toekomst: Dit legt de basis voor robots die echt kunnen helpen in huizen, fabrieken en ziekenhuizen. Ze kunnen leren van hun fouten, zich aanpassen aan nieuwe situaties en samenwerken met mensen.
  • Conclusie: Het paper laat zien dat door slimme techniek (zoals het weglaten van onnodige wachttijden en het slimmer organiseren van data), we de grenzen van wat robots kunnen doen, enorm kunnen verleggen.

Kortom: Ze hebben de "verkeersfile" in de AI-wereld opgelost door een slimme, snelle en efficiënte supercomputer te bouwen, zodat robots veel sneller kunnen leren en ons leven makkelijker kunnen maken.