A Pragmatic VLA Foundation Model

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Roboter beibringen, wie man ein Sandwich macht, Blumen arrangiert oder einen komplizierten Holzschlüssel zerlegt. Früher musste man dem Roboter für jede einzelne dieser Aufgaben stundenlang den Weg vorzeigen – wie ein strenger Lehrer, der einem Schüler jeden einzelnen Schritt eines Matheproblems zeigt. Das war langsam, teuer und der Roboter konnte nichts anderes, wenn man ihn in eine neue Küche stellte.

Die Forscher hinter LingBot-VLA haben nun einen neuen Ansatz gewählt. Sie haben einen „Roboter-Genie" erschaffen, der nicht nur sieht und hört, sondern auch handelt. Hier ist die Erklärung, wie das funktioniert, vereinfacht und mit ein paar bildhaften Vergleichen:

1. Der riesige Lernspeicher (Die 20.000 Stunden)

Stellen Sie sich vor, Sie müssten ein neues Handwerk lernen. Wenn Sie nur 10 Stunden lang einen Meister beobachten, lernen Sie vielleicht, wie man einen Nagel einschlägt. Wenn Sie aber 20.000 Stunden lang verschiedene Handwerker bei der Arbeit beobachten – vom Tischler bis zum Koch, vom Elektriker bis zum Gärtner – dann verstehen Sie plötzlich das Prinzip des Arbeitens.

Das ist genau das, was LingBot-VLA getan hat. Die Forscher haben Daten von 9 verschiedenen Robotern (mit zwei Armen, wie ein Mensch) gesammelt. Diese Roboter haben in der echten Welt Dinge getan: Schrauben gedreht, Tücher gefaltet, Zitronen geschält. Das sind im Grunde 20.000 Stunden echtes „Lebenswissen".

Der Vorteil: Der Roboter hat nicht nur auswendig gelernt, wie man eine Schraube dreht, sondern er versteht, warum man das tut und wie man es anpasst, wenn die Schraube anders aussieht oder der Roboter einen anderen Arm hat.

2. Das Gehirn: Ein Team aus zwei Experten

Stellen Sie sich das Gehirn von LingBot-VLA wie ein Team aus zwei Spezialisten vor, die in einem Büro sitzen:

Der „Verstehens-Experte" (Vision-Language): Dieser Teil ist wie ein sehr gebildeter Bibliothekar. Er kann Bilder sehen und Sprache verstehen. Wenn Sie sagen: „Mach mir ein Sandwich", weiß er, was ein Sandwich ist, wie Brot aussieht und was „machen" bedeutet.
Der „Handlungs-Experte" (Action Expert): Dieser ist wie ein erfahrener Sportler oder Handwerker. Er weiß, wie man die Muskeln (die Roboterarme) bewegt, um die Aufgabe zu erledigen.

Das Besondere an LingBot ist, dass diese beiden nicht nebeneinander sitzen, sondern Hand in Hand arbeiten. Der Bibliothekar sagt dem Sportler: „Der Roboter muss jetzt den Arm heben", und der Sportler führt es aus. Durch eine spezielle Architektur (die Forscher nennen sie „Mixture-of-Transformers") können sie sich ständig abstimmen, ohne sich gegenseitig zu stören.

3. Der tiefe Blick (Warum Tiefe wichtig ist)

Ein Roboter, der nur mit einer Kamera sieht, ist wie ein Mensch, der mit einem Auge schielt. Er sieht flache Bilder, aber er weiß nicht genau, wie weit weg ein Objekt ist.
LingBot-VLA hat jedoch eine zusätzliche Brille aufgesetzt: Es nutzt Tiefeninformationen (wie ein 3D-Scanner).

Die Analogie: Stellen Sie sich vor, Sie versuchen, einen Ball in einen Korb zu werfen. Wenn Sie nur ein flaches Foto sehen, wissen Sie nicht, ob der Korb 1 Meter oder 10 Meter entfernt ist. Mit der „Tiefen-Brille" sieht der Roboter genau, wie weit weg der Korb ist, und kann den Wurf perfekt berechnen. Das macht ihn viel präziser, besonders bei schwierigen Aufgaben wie dem Einfädeln von Fäden oder dem Stapeln von Tellern.

4. Der schnelle Motor (Effizienz)

Früher war das Trainieren solcher Roboter wie das Kochen eines riesigen Suppentopfes auf einem kleinen Herd: Es dauerte ewig und brauchte viel Energie.
Die Forscher haben nun eine neue, hochmoderne Küche gebaut (ihre Software-Codebase).

Der Vergleich: Während andere Roboter-Modelle wie ein einzelner Koch sind, der langsam rührt, ist LingBot-VLA wie ein Team von 8 Köchen, die gleichzeitig an einem riesigen Herd arbeiten. Sie können Daten 2,8-mal schneller verarbeiten als die Konkurrenz. Das bedeutet: Was früher Wochen dauerte, geht jetzt in Tagen. Das spart Geld und Zeit.

5. Der große Test (Die Prüfung)

Um zu beweisen, dass ihr Roboter wirklich gut ist, haben sie ihn nicht nur in einer Simulation getestet (wo alles perfekt läuft), sondern in der echten Welt.

Der Test: Sie stellten den Roboter vor 100 verschiedene Aufgaben (vom Toasten von Brot bis zum Sortieren von Würfeln) auf 3 verschiedenen Roboterkörpern.
Das Ergebnis: LingBot-VLA war deutlich besser als alle anderen aktuellen Modelle. Er hat nicht nur die Aufgaben gelöst, die er im Training gesehen hatte, sondern hat sich auch auf neue Situationen angepasst. Er ist wie ein Schüler, der nicht nur die Aufgaben aus dem Buch kann, sondern auch eine neue Aufgabe löst, die nie im Lehrbuch stand.

Zusammenfassung

LingBot-VLA ist wie ein universeller Roboter-Lehrling, der:

Eine riesige Lebenserfahrung (20.000 Stunden) gesammelt hat.
Ein Team aus Verstehen und Handeln ist.
3D-Tiefenwahrnehmung besitzt, um Dinge präzise zu greifen.
Extrem schnell lernt und trainiert werden kann.

Die Forscher geben dieses Wissen jetzt allen kostenlos zur Verfügung (Code, Modelle und Daten), damit die ganze Welt lernen kann, wie man Roboter baut, die wirklich nützlich und vielseitig sind – nicht nur in der Fabrik, sondern vielleicht bald auch in unserem Wohnzimmer.

A Pragmatic VLA Foundation Model

1. Der riesige Lernspeicher (Die 20.000 Stunden)

2. Das Gehirn: Ein Team aus zwei Experten

3. Der tiefe Blick (Warum Tiefe wichtig ist)

4. Der schnelle Motor (Effizienz)

5. Der große Test (Die Prüfung)

Zusammenfassung

Titel: A Pragmatic VLA Foundation Model (LingBot-VLA)

1. Problemstellung

2. Methodik

A. Datensammlung und -aufbereitung

B. Modellarchitektur (LingBot-VLA)

C. Trainingsoptimierung

3. Wichtige Beiträge

4. Ergebnisse

A. Reale Welt-Evaluation (GM-100 Benchmark)

B. Simulation-Evaluation (RoboTwin 2.0)

C. Skalierungsverhalten

D. Daten-Effizienz

5. Bedeutung und Ausblick

A Pragmatic VLA Foundation Model

1. Der riesige Lernspeicher (Die 20.000 Stunden)

2. Das Gehirn: Ein Team aus zwei Experten

3. Der tiefe Blick (Warum Tiefe wichtig ist)

4. Der schnelle Motor (Effizienz)

5. Der große Test (Die Prüfung)

Zusammenfassung

Titel: A Pragmatic VLA Foundation Model (LingBot-VLA)

1. Problemstellung

2. Methodik

A. Datensammlung und -aufbereitung

B. Modellarchitektur (LingBot-VLA)

C. Trainingsoptimierung

3. Wichtige Beiträge

4. Ergebnisse

A. Reale Welt-Evaluation (GM-100 Benchmark)

B. Simulation-Evaluation (RoboTwin 2.0)

C. Skalierungsverhalten

D. Daten-Effizienz

5. Bedeutung und Ausblick

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation