ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Each language version is independently generated for its own context, not a direct translation.

ACE-Brain-0: Der „Universal-Direktor" für Roboter, Autos und Drohnen

Stellen Sie sich vor, Sie wollen einen einzigen genialen Lehrer finden, der gleichzeitig drei völlig unterschiedliche Schüler unterrichten kann:

Einen Autonomen Fahrer, der durch den dichten Stadtverkehr navigieren muss.
Eine Drohne, die sich in der Luft orientiert und Objekte aus der Vogelperspektive erkennt.
Einen Roboterarm, der im Wohnzimmer Tassen aufheben und Türen öffnen soll.

Das Problem bisher war: Wenn man diesen einen Lehrer versucht, alle drei Aufgaben gleichzeitig zu lehren, wird er verwirrt. Die Lernziele kollidieren (der Lehrer vergisst, wie man eine Tasse hält, weil er gerade lernt, wie man Staus vermeidet). Das nennt man „Katastrophales Vergessen".

ACE-Brain-0 ist die Lösung für dieses Problem. Es ist ein neues KI-Modell, das nicht versucht, alles auf einmal zu lernen, sondern eine clevere Strategie namens „Gerüst-Spezialisieren-Vereinigen" (im Englischen: Scaffold-Specialize-Reconcile) verwendet.

Hier ist die Erklärung mit einfachen Analogien:

1. Das Geheimnis: Der gemeinsame „Raum-Gedanke" (Spatial Intelligence)

Der wichtigste Durchbruch der Forscher ist die Erkenntnis: Egal, ob man ein Auto, eine Drohne oder ein Roboter ist – alle müssen den dreidimensionalen Raum verstehen.

Ein Auto muss wissen: „Wie weit ist das Auto vor mir?"
Eine Drohne muss wissen: „Wie hoch bin ich über dem Boden?"
Ein Roboter muss wissen: „Wo steht der Stuhl?"

Dieses Verständnis von 3D-Raum ist wie ein universelles Fundament. Es ist der gemeinsame Nenner für alle physischen Wesen.

2. Die Strategie: Drei Schritte zum Meister

Statt alles durcheinander zu werfen, baut ACE-Brain-0 sein Wissen in drei Phasen auf:

Schritt 1: Das Gerüst bauen (Der „Raum-Experte")

Stellen Sie sich vor, Sie bauen ein Haus. Zuerst bauen Sie das stabile Fundament und die tragenden Wände.
In diesem Schritt trainiert das Modell nur auf räumlichen Aufgaben. Es lernt, Entfernungen zu schätzen, Objekte zu zählen und sich im Raum vorzustellen. Es wird zum Raum-Experten.

Analogie: Ein Architekt, der erst lernt, wie Schwerkraft und Statik funktionieren, bevor er überhaupt über die Farbe der Wände nachdenkt.

Schritt 2: Die Spezialisten ausbilden (Das „Spezialisieren")

Jetzt, da das Fundament (das Raumverständnis) steht, werden drei separate „Experten" aus diesem Fundament geschult:

Der Autofahrer-Experte lernt nur Fahrregeln und Verkehrsszenen.
Der Drohnen-Experte lernt nur Luftbilder und Flugmanöver.
Der Roboter-Experte lernt nur Greifen und Manipulieren.
Wichtig: Jeder lernt separat. Der Autofahrer stört nicht den Roboter. So vermeiden sie das „Vergessen" und die Verwirrung.

Schritt 3: Die Fusion (Das „Vereinigen")

Jetzt haben wir drei brillante Spezialisten. Aber wir wollen nur ein Gehirn.
Hier kommt der magische Trick: Die Forscher „verschmelzen" die drei Modelle zu einem einzigen, ohne neue Daten zu verwenden. Sie nehmen die Gewichte (das Wissen) der drei Experten und mischen sie intelligent zusammen.

Analogie: Stellen Sie sich vor, Sie haben drei Meisterköche: einen für Sushi, einen für Pizza und einen für Desserts. Anstatt sie alle in einer Küche zu mischen (wo sie sich gegenseitig stören würden), nehmen Sie ihre besten Rezepte und kombinieren sie zu einem „Super-Kochbuch". Das Ergebnis ist ein Koch, der alle drei Künste beherrscht, ohne dass die Pizza den Sushi-Roll-Technik verdirbt.

3. Warum ist das so cool?

Bisherige Modelle waren wie ein Generalist, der alles ein bisschen kann, aber nichts richtig gut. ACE-Brain-0 ist wie ein Universal-Genie:

Es kann räumlich denken (Wie weit ist das Auto?).
Es kann Autos steuern (Soll ich bremsen?).
Es kann Drohnen lenken (Wo ist das Ziel?).
Es kann Roboter bewegen (Greife die Tasse).

Und das Beste: Es hat in Tests auf 24 verschiedenen Prüfungen (von autonomen Fahren bis zu Robotik) besser abgeschnitten als fast alle anderen Modelle, sogar besser als die teuersten geschlossenen Systeme von Tech-Giganten.

Zusammenfassung in einem Satz

ACE-Brain-0 ist wie ein universeller Baumeister, der zuerst lernt, wie man ein stabiles Haus baut (Raumverständnis), dann separate Handwerker für Strom, Wasser und Heizung ausbildet (Spezialisten), und am Ende alle Pläne zu einem perfekten, funktionierenden Gebäude zusammenfügt (Vereinigung), ohne dass etwas kaputtgeht.

Es ist ein großer Schritt hin zu echten „Allround-Robotern", die nicht nur eine Sache können, sondern sich in unserer komplexen, dreidimensionalen Welt zurechtfinden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Entwicklung universeller eingebetteter Intelligenz (Embodied AI), die auf heterogene physische Formen wie autonome Fahrzeuge, Roboter und unbemannte Luftfahrzeuge (UAVs) anwendbar ist, steht vor erheblichen Herausforderungen. Bestehende Ansätze zum Training eines einheitlichen Modells über diverse Embodiments hinweg scheitern oft an drei Hauptproblemen:

Gradienten-Interferenz: Beim gemeinsamen Training (Joint Training) mit gemischten Daten führen unterschiedliche Optimierungsziele der Domänen zu widersprüchlichen Gradienten, was die Leistung in einzelnen Domänen verschlechtert.
Katastrophales Vergessen: Bei sequenziellen Trainingsansätzen (Sequential Training), bei denen Modelle nacheinander für verschiedene Domänen feinabgestimmt werden, gehen zuvor erlernte Fähigkeiten oft verloren.
Long-Tail-Daten: Die Datenverteilung ist oft unausgewogen, was die Generalisierung erschwert.

Das Kernproblem liegt darin, wie man domain-spezifische Expertise (z. B. präzise Manipulation bei Robotern vs. Trajektorienplanung bei Drohnen) mit einer gemeinsamen, universellen Grundlage vereint, ohne die Stabilität des Lernprozesses zu gefährden.

2. Methodik: Das „Scaffold-Specialize-Reconcile" (SSR) Paradigma

Die Autoren identifizieren räumliche Intelligenz (Spatial Intelligence) als den gemeinsamen Nenner aller physischen Embodiments. Unabhängig von der Morphologie benötigen alle Systeme ein Verständnis von 3D-Räumen, Objektlayouts und geometrischen Beziehungen. Darauf aufbauend schlagen sie das Scaffold-Specialize-Reconcile (SSR)-Trainingsparadigma vor, das in fünf Stufen unterteilt ist:

Stufe 1: Räumliches Gerüst-Training (Spatial Scaffold Training):
Ein Basis-Modell (basierend auf Qwen3-VL) wird zunächst mit allgemeinen Daten vortrainiert und dann mit großen Mengen an räumlichen Daten (Spatial Intelligence Datasets) zu einem spezialisierten „Spatial Expert" weiter trainiert. Dieses Modell dient als universelles, domänenagnostisches strukturelles Fundament (Scaffold).
Stufe 2: Überwachtes Feinabstimmen spezialisierter Experten (Supervised Specialized Expert Fine-Tuning):
Ausgehend vom Spatial Expert werden isolierte Experten für spezifische Domänen trainiert:
- $\theta_{spatial}$ : Räumliche Kognition.
- $\theta_{uav}$ : Low-Altitude Sensing (Drohnen).
- $\theta_{ad}$ : Autonomes Fahren.
- $\theta_{embodied}$ : Embodied Interaction (Roboter).
  Durch diese Isolation wird Gradienten-Interferenz vermieden, da jeder Experte nur auf seinen spezifischen Daten lernt.
Stufe 3: Domänenübergreifende Versöhnung durch Modell-Merging (Across-Embodiment Reconcile Model Merging):
Die isolierten Experten werden zu einem einzigen einheitlichen Modell zusammengeführt. Dies geschieht datenfrei (data-free) durch ein optimiertes Merging-Verfahren (basierend auf Task-Vektoren und Optimierung, z. B. WUDI oder TSVM). Das Ziel ist es, die komplementären Fähigkeiten der Experten zu synthetisieren, ohne dass weitere Trainingsdaten benötigt werden, was das Problem des katastrophalen Vergessens umgeht.
Stufe 4: Überwachtes Feinabstimmen auf Embodied-Daten:
Das gemergte Modell wird mit großen Mengen an multimodalen Embodied-Daten (Erst-Person-Perspektive, Aktionsplanung) weiter verfeinert, um die Interaktionsfähigkeit zu stärken.
Stufe 5: Reinforcement Learning mit GRPO:
Abschließend wird das Modell durch Group Relative Policy Optimization (GRPO) optimiert. Dabei werden für jede Frage mehrere Antworten generiert und relativ zueinander belohnt, um die Entscheidungsqualität und die Fähigkeit zur mehrstufigen Planung in komplexen Szenarien zu verbessern.

Die Architektur von ACE-Brain-0 ist ein multimodales autoregressives Large Language Model (MLLM), das Bilder, Videos und Text als Eingabe verarbeitet und domänenspezifische Ausgaben (Text, Aktionen, Trajektorien) generiert.

3. Hauptbeiträge

Identifikation des räumlichen Gerüsts: Der Nachweis, dass räumliche Intelligenz als universelles Transfer-Scaffold für verschiedene physische Embodiments dient und das Lernen über Domänen hinweg signifikant beschleunigt.
Das SSR-Paradigma: Eine neue Trainingsstrategie, die das Dilemma zwischen Stabilität und Plastizität löst, indem sie ein gemeinsames räumliches Fundament schafft, spezialisierte Experten isoliert entwickelt und diese durch datenfreies Merging harmonisiert.
ACE-Brain-0: Die Implementierung eines generalistischen Foundation-Modells, das in 24 verschiedenen Benchmarks state-of-the-art Ergebnisse erzielt und damit zeigt, dass ein einheitliches Modell für autonome Fahrzeuge, Drohnen und Roboter möglich ist.

4. Ergebnisse

ACE-Brain-0 wurde auf 24 Benchmarks in vier Domänen evaluiert und zeigte konsistent leistungsstarke Ergebnisse, die oft den State-of-the-Art (SOTA) bei Open-Source- und Closed-Source-Modellen übertreffen:

Räumliche Intelligenz: Erreichte 92,0 % auf dem SAT-Benchmark und 82,1 % auf MindCube, deutlich besser als Gemini-2.5-Pro oder GPT-4o.
Autonomes Fahren: Erzielte 71,2 % auf MME-RealWorld und 91,7 % auf NuPlanQA, was die Fähigkeit zur Integration von Wahrnehmung und kinematischer Planung unterstreicht.
Low-Altitude (UAV): Erreichte 56,9 % auf UrbanVideo-Bench und 70,3 % auf AircopBench, was die Überlegenheit in der räumlichen reasoning aus der Vogelperspektive zeigt.
Embodied Interaction: Erzielte 77,3 % auf EmbSpatial-Bench und 55,3 % auf EgoPlan-Bench2, was die Fähigkeit zur langfristigen Planung in interaktiven Umgebungen demonstriert.

Ablationsstudien bestätigten, dass das SSR-Paradigma im Vergleich zu reinem Joint Training oder Sequential Training überlegen ist. Insbesondere zeigte sich, dass das Training von Experten auf Basis des Spatial Scaffolds zu signifikanten Verbesserungen (+19,3 % im autonomen Fahren, +16,5 % bei UAVs) führt, während das direkte Training ohne Scaffold bei Embodied-Aufgaben sogar zu einem Leistungsabfall führte.

5. Bedeutung und Ausblick

ACE-Brain-0 stellt einen Paradigmenwechsel in der Entwicklung von Embodied AI dar. Anstatt für jede Robotik- oder Fahrzeugplattform ein separates Modell zu trainieren, demonstriert das Paper, dass ein einheitliches, generalistisches Gehirn möglich ist, das auf einem gemeinsamen räumlichen Verständnis aufbaut.

Die Bedeutung liegt in:

Skalierbarkeit: Die Möglichkeit, neue Embodiments (z. B. humanoide Roboter oder Unterwasserfahrzeuge) durch das Hinzufügen spezialisierter Experten und Merging zu integrieren, ohne das gesamte System neu zu trainieren.
Effizienz: Die Vermeidung von Gradienten-Interferenz und katastrophalem Vergessen durch das SSR-Paradigma.
Zukunftsperspektiven: Die Arbeit ebnet den Weg für physikbewusste Vorhersagen, geschlossene Regelkreise (Vision-Language-Action) und kontinuierliches Lernen über die Lebensdauer eines Systems hinweg.

Zusammenfassend bietet ACE-Brain-0 einen prinzipiellen Bauplan für die nächste Generation von universellen Embodied-AI-Systemen, die komplexe physische Aufgaben in der realen Welt meistern können.

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

1. Das Geheimnis: Der gemeinsame „Raum-Gedanke" (Spatial Intelligence)

2. Die Strategie: Drei Schritte zum Meister

Schritt 1: Das Gerüst bauen (Der „Raum-Experte")

Schritt 2: Die Spezialisten ausbilden (Das „Spezialisieren")

Schritt 3: Die Fusion (Das „Vereinigen")

3. Warum ist das so cool?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Das „Scaffold-Specialize-Reconcile" (SSR) Paradigma

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics