ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Der Bericht stellt ACE-Brain-0 vor, ein universelles multimodales Sprachmodell, das räumliche Intelligenz als gemeinsame Grundlage nutzt und durch ein Scaffold-Specialize-Reconcile-Verfahren sowie GRPO-Optimierung eine state-of-the-art Leistung über diverse Embodiments hinweg ermöglicht.

Ziyang Gong, Zehang Luo, Anke Tang, Zhe Liu, Shi Fu, Zhi Hou, Ganlin Yang, Weiyun Wang, Xiaofeng Wang, Jianbo Liu, Gen Luo, Haolan Kang, Shuang Luo, Yue Zhou, Yong Luo, Li Shen, Xiaosong Jia, Yao Mu, Xue Yang, Chunxiao Liu, Junchi Yan, Hengshuang Zhao, Dacheng Tao, Xiaogang Wang

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

ACE-Brain-0: Der „Universal-Direktor" für Roboter, Autos und Drohnen

Stellen Sie sich vor, Sie wollen einen einzigen genialen Lehrer finden, der gleichzeitig drei völlig unterschiedliche Schüler unterrichten kann:

  1. Einen Autonomen Fahrer, der durch den dichten Stadtverkehr navigieren muss.
  2. Eine Drohne, die sich in der Luft orientiert und Objekte aus der Vogelperspektive erkennt.
  3. Einen Roboterarm, der im Wohnzimmer Tassen aufheben und Türen öffnen soll.

Das Problem bisher war: Wenn man diesen einen Lehrer versucht, alle drei Aufgaben gleichzeitig zu lehren, wird er verwirrt. Die Lernziele kollidieren (der Lehrer vergisst, wie man eine Tasse hält, weil er gerade lernt, wie man Staus vermeidet). Das nennt man „Katastrophales Vergessen".

ACE-Brain-0 ist die Lösung für dieses Problem. Es ist ein neues KI-Modell, das nicht versucht, alles auf einmal zu lernen, sondern eine clevere Strategie namens „Gerüst-Spezialisieren-Vereinigen" (im Englischen: Scaffold-Specialize-Reconcile) verwendet.

Hier ist die Erklärung mit einfachen Analogien:

1. Das Geheimnis: Der gemeinsame „Raum-Gedanke" (Spatial Intelligence)

Der wichtigste Durchbruch der Forscher ist die Erkenntnis: Egal, ob man ein Auto, eine Drohne oder ein Roboter ist – alle müssen den dreidimensionalen Raum verstehen.

  • Ein Auto muss wissen: „Wie weit ist das Auto vor mir?"
  • Eine Drohne muss wissen: „Wie hoch bin ich über dem Boden?"
  • Ein Roboter muss wissen: „Wo steht der Stuhl?"

Dieses Verständnis von 3D-Raum ist wie ein universelles Fundament. Es ist der gemeinsame Nenner für alle physischen Wesen.

2. Die Strategie: Drei Schritte zum Meister

Statt alles durcheinander zu werfen, baut ACE-Brain-0 sein Wissen in drei Phasen auf:

Schritt 1: Das Gerüst bauen (Der „Raum-Experte")

Stellen Sie sich vor, Sie bauen ein Haus. Zuerst bauen Sie das stabile Fundament und die tragenden Wände.
In diesem Schritt trainiert das Modell nur auf räumlichen Aufgaben. Es lernt, Entfernungen zu schätzen, Objekte zu zählen und sich im Raum vorzustellen. Es wird zum Raum-Experten.

  • Analogie: Ein Architekt, der erst lernt, wie Schwerkraft und Statik funktionieren, bevor er überhaupt über die Farbe der Wände nachdenkt.

Schritt 2: Die Spezialisten ausbilden (Das „Spezialisieren")

Jetzt, da das Fundament (das Raumverständnis) steht, werden drei separate „Experten" aus diesem Fundament geschult:

  • Der Autofahrer-Experte lernt nur Fahrregeln und Verkehrsszenen.
  • Der Drohnen-Experte lernt nur Luftbilder und Flugmanöver.
  • Der Roboter-Experte lernt nur Greifen und Manipulieren.
  • Wichtig: Jeder lernt separat. Der Autofahrer stört nicht den Roboter. So vermeiden sie das „Vergessen" und die Verwirrung.

Schritt 3: Die Fusion (Das „Vereinigen")

Jetzt haben wir drei brillante Spezialisten. Aber wir wollen nur ein Gehirn.
Hier kommt der magische Trick: Die Forscher „verschmelzen" die drei Modelle zu einem einzigen, ohne neue Daten zu verwenden. Sie nehmen die Gewichte (das Wissen) der drei Experten und mischen sie intelligent zusammen.

  • Analogie: Stellen Sie sich vor, Sie haben drei Meisterköche: einen für Sushi, einen für Pizza und einen für Desserts. Anstatt sie alle in einer Küche zu mischen (wo sie sich gegenseitig stören würden), nehmen Sie ihre besten Rezepte und kombinieren sie zu einem „Super-Kochbuch". Das Ergebnis ist ein Koch, der alle drei Künste beherrscht, ohne dass die Pizza den Sushi-Roll-Technik verdirbt.

3. Warum ist das so cool?

Bisherige Modelle waren wie ein Generalist, der alles ein bisschen kann, aber nichts richtig gut. ACE-Brain-0 ist wie ein Universal-Genie:

  • Es kann räumlich denken (Wie weit ist das Auto?).
  • Es kann Autos steuern (Soll ich bremsen?).
  • Es kann Drohnen lenken (Wo ist das Ziel?).
  • Es kann Roboter bewegen (Greife die Tasse).

Und das Beste: Es hat in Tests auf 24 verschiedenen Prüfungen (von autonomen Fahren bis zu Robotik) besser abgeschnitten als fast alle anderen Modelle, sogar besser als die teuersten geschlossenen Systeme von Tech-Giganten.

Zusammenfassung in einem Satz

ACE-Brain-0 ist wie ein universeller Baumeister, der zuerst lernt, wie man ein stabiles Haus baut (Raumverständnis), dann separate Handwerker für Strom, Wasser und Heizung ausbildet (Spezialisten), und am Ende alle Pläne zu einem perfekten, funktionierenden Gebäude zusammenfügt (Vereinigung), ohne dass etwas kaputtgeht.

Es ist ein großer Schritt hin zu echten „Allround-Robotern", die nicht nur eine Sache können, sondern sich in unserer komplexen, dreidimensionalen Welt zurechtfinden.