ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

In dit rapport wordt ACE-Brain-0 geïntroduceerd, een universeel multimodaal groot taalmodel dat ruimtelijke intelligentie als gedeeld fundament gebruikt om diverse fysieke implementaties, zoals autonoom rijden en robotica, te verenigen via het Scaffold-Specialize-Reconcile-paradigma en GRPO, waardoor state-of-the-art prestaties worden bereikt op 24 benchmarks.

Ziyang Gong, Zehang Luo, Anke Tang, Zhe Liu, Shi Fu, Zhi Hou, Ganlin Yang, Weiyun Wang, Xiaofeng Wang, Jianbo Liu, Gen Luo, Haolan Kang, Shuang Luo, Yue Zhou, Yong Luo, Li Shen, Xiaosong Jia, Yao Mu, Xue Yang, Chunxiao Liu, Junchi Yan, Hengshuang Zhao, Dacheng Tao, Xiaogang Wang

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧠 ACE-Brain-0: De "Alles-kunnen" Brein voor Robots

Stel je voor dat je een super-intelligente robot wilt bouwen die niet alleen een auto kan besturen, maar ook een drone kan vliegen en een robotarm kan laten koffie zetten. Het probleem is dat deze taken heel verschillend zijn. Een auto rijdt op de grond, een drone vliegt in de lucht, en een robotarm pakt kleine voorwerpen vast.

Tot nu toe was het heel moeilijk om één enkel "brein" te maken dat al deze dingen goed kan. Als je ze allemaal tegelijk traint, vergeten ze elkaar (alsof je probeert om in één keer Italiaans, Japans en Spaans te leren; je begint ze door elkaar te halen). Als je ze één voor één traint, vergeten ze wat ze eerder hebben geleerd (je bent goed in Japans, maar vergeet je Italiaans).

ACE-Brain-0 is de oplossing. Het is een nieuw type kunstmatige intelligentie dat alles kan. Maar hoe doen ze dat? Ze gebruiken een slimme truc die ze het SSR-methode noemen.

Laten we het vergelijken met het bouwen van een meesterkok die ook nog eens een piloot en een architect is.

1. De Grote Inzicht: Ruimtelijk Inzicht is de "Gouden Sleutel"

De onderzoekers ontdekten iets belangrijks: of je nu een auto, een drone of een robotarm bent, je hebt allemaal ruimtelijk inzicht nodig.

  • Een auto moet weten waar de andere auto's zijn.
  • Een drone moet weten hoe ver het naar de grond is.
  • Een robotarm moet weten waar de kop koffie staat.

Ze noemen dit "Spatial Intelligence" (Ruimtelijk Inzicht). Dit is de gemeenschappelijke taal die alle robots spreken. Het is als het fundament van een huis. Als je een goed fundament hebt, kun je er later verschillende soorten verdiepingen op bouwen.

2. De SSR-Methode: Bouwen, Specialiseren, Samenvoegen

In plaats van alles door elkaar te gooien, gebruiken ze drie stappen (zoals het bouwen van een super-robot):

Stap 1: Het Scaffolding (Het Steiger Bouwen)
Stel je voor dat je een steiger bouwt rond een gebouw. Dit steiger is niet het eindproduct, maar het zorgt dat alles stevig staat.

  • Wat doen ze? Ze trainen het model eerst puur op ruimtelijk inzicht. Het leert hoe objecten zich in de ruimte verhouden, hoe afstand werkt en hoe 3D-ruimte eruitziet.
  • Analogie: Dit is als een student die eerst alleen wiskunde en geometrie studeert, zonder zich te bekommeren om of hij straks auto-rijdt of vliegtuig bestuurt. Hij bouwt een sterk "ruimtelijk brein" op.

Stap 2: Specialiseren (De Experts Opleiden)
Nu het steiger (het fundament) staat, kunnen we aparte experts opleiden.

  • Wat doen ze? Ze nemen dat sterke ruimtelijke brein en trainen het apart voor specifieke taken: één versie voor auto's, één voor drones, en één voor robots.
  • Waarom apart? Omdat ze anders in de weg lopen. Als je een auto traint terwijl je een drone traint, raken de "gradients" (de leerregels) elkaar in de war. Door ze apart te trainen, wordt elke expert een meester in zijn eigen vak, maar ze delen allemaal hetzelfde sterke fundament.
  • Analogie: Je hebt nu een meester-architect, een meester-piloot en een meester-kok. Ze hebben allemaal dezelfde basisopleiding in wiskunde gehad, maar zijn nu gespecialiseerd in hun eigen werk.

Stap 3: Reconcile (De Samenvoeging zonder Verlies)
Dit is de magische stap. Hoe krijg je die drie experts terug in één brein zonder dat ze vergeten wat ze hebben geleerd?

  • Wat doen ze? Ze gebruiken een slimme wiskundige truc om de gewichten van de drie modellen te samenvoegen. Ze doen dit zonder extra data te gebruiken (data-vrij). Het is alsof je de kennis van de architect, piloot en kok in één persoon stopt zonder dat de kok vergeet hoe hij moet koken.
  • Analogie: Het is alsof je drie verschillende gerechten (Italiaans, Japans, Mexicaans) in één grote, perfecte soep giet, maar zo dat je nog steeds de smaak van elk gerecht kunt proeven. Geen enkel gerecht verdwijnt; ze versterken elkaar.

3. Waarom werkt dit zo goed?

Vroeger probeerden onderzoekers alles in één keer te doen (Joint Training). Dat was als proberen om een student te laten studeren voor drie verschillende examens tegelijk; hij raakte in de war en deed het op geen enkel goed.
Of ze deden het één voor één (Sequential Training). Dat was als eerst Italiaans leren, dan Japans, en dan Spaans. Maar toen hij Spaans leerde, was hij vergeten hoe Italiaans klinkt.

ACE-Brain-0 doet het slim:

  1. Bouw een onwrikbaar fundament (Ruimtelijk Inzicht).
  2. Bouw aparte, sterke verdiepingen (Experts).
  3. Sluit ze naadloos aan op elkaar (Samenvoegen).

4. Het Resultaat

Het resultaat is een model dat 24 verschillende tests heeft doorstaan en bijna overal de beste score haalt.

  • Het kan een auto laten rijden alsof het een pro is.
  • Het kan een drone laten vliegen door een stad.
  • Het kan een robotarm laten vertellen hoe hij een kopje moet pakken.
  • En het kan zelfs complexe ruimtelijke puzzels oplossen.

Kortom: ACE-Brain-0 bewijst dat als je robots eerst leert hoe de wereld eruitziet (ruimte, afstand, 3D), ze daarna veel makkelijker kunnen leren om die wereld te beheren, of ze nu wielen, vleugels of armen hebben. Het is de eerste echte "Universele Robot" die niet vergeten is wat hij heeft geleerd.