Each language version is independently generated for its own context, not a direct translation.
Stellen Sie sich vor, Sie möchten einen Roboter oder ein autonomes Auto lernen lassen, wie man die Welt versteht und darin agiert. Früher musste man diese Maschinen direkt in die echte Welt schicken, um sie zu trainieren. Das war wie ein Kind, das erst lernen muss, Fahrrad zu fahren, indem es sofort auf die belebte Straße geschickt wird – teuer, gefährlich und voller Stürze.
NVIDIA hat jetzt eine Lösung vorgestellt, die wie eine ultra-realistische Videospiele-Welt funktioniert, aber mit einem entscheidenden Unterschied: In dieser Welt gelten die Gesetze der Physik. Sie nennen es Cosmos-Predict2.5.
Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:
1. Der große Traum: Eine Welt im Computer
Stellen Sie sich Cosmos-Predict2.5 als einen unermüdlichen Regisseur vor, der in einem riesigen Studio arbeitet. Dieser Regisseur kann nicht nur Filme drehen, sondern ganze Welten erschaffen.
- Was er kann: Er kann aus einem Text („Ein Roboter greift nach einem Apfel") ein Video machen. Er kann aus einem einzelnen Bild („Hier ist eine Küche") eine ganze Szene entwickeln, in der sich Dinge bewegen. Er kann sogar aus einem kurzen Videoclip eine Fortsetzung erfinden, die physikalisch korrekt ist (z. B. wie ein Glas zerbricht oder wie Wasser fließt).
- Der Clou: Früher waren diese Regisseure oft etwas chaotisch. Sie ließen Autos durch Wände fahren oder ließen Äpfel in der Luft schweben. Cosmos-Predict2.5 ist wie ein Regisseur, der Physik studiert hat. Er weiß genau, wie Dinge fallen, rollen und kollidieren.
2. Wie lernt dieser Regisseur? (Die Daten)
Um so gut zu werden, hat der Regisseur nicht einfach irgendein Video geschaut. Das Team von NVIDIA hat 200 Millionen Videoclips gesammelt und wie ein strenger Koch sie sorgfältig ausgewählt.
- Der Filter: Stellen Sie sich einen riesigen Sieb vor. Zuerst wurden alle schlechten, unscharfen oder langweiligen Videos herausgefiltert. Nur die besten 4 % kamen durch.
- Das Spezialwissen: Neben allgemeinen Videos (Natur, Menschen) haben sie spezielle Daten für Roboter, Autos und Physik gesammelt. Es ist, als hätte der Regisseur nicht nur Krimis gesehen, sondern auch Dokumentationen über Schwerkraft und Robotik, um alles perfekt zu verstehen.
3. Der neue Trick: Reinforcement Learning (Das Feedback-System)
Das ist der spannendste Teil. Nach dem Training hat der Regisseur nicht einfach aufgehört. Er hat ein Feedback-System bekommen.
- Wie ein Lehrer: Stellen Sie sich vor, der Regisseur macht einen Film. Ein smarter KI-Lehrer (ein sogenanntes „Reward Model") schaut sich das Ergebnis an und sagt: „Der Apfel fällt zu langsam, das sieht nicht echt aus" oder „Der Text passt nicht zum Bild".
- Die Verbesserung: Der Regisseur korrigiert seinen Film basierend auf diesem Feedback. Er wiederholt das so oft, bis er perfekt ist. Das nennt man Reinforcement Learning (Bestärkendes Lernen). Das Ergebnis sind Videos, die so realistisch sind, dass man sie kaum von echten Aufnahmen unterscheiden kann.
4. Der Verwandlungskünstler: Cosmos-Transfer2.5
Neben dem großen Regisseur gibt es noch einen Verwandlungskünstler, genannt Cosmos-Transfer2.5.
- Die Aufgabe: Dieser Künstler kann eine Welt in eine andere verwandeln. Er nimmt zum Beispiel eine einfache Skizze einer Straße (wie eine Landkarte) und macht daraus einen fotorealistischen Video-Verkehr. Oder er nimmt ein Video eines Roboters in einer grauen Werkstatt und verwandelt es in eine Szene in einer bunten, modernen Küche.
- Warum ist das toll? Roboter müssen oft in verschiedenen Umgebungen arbeiten. Statt für jede neue Küche ein neues Training zu machen, kann dieser Künstler einfach das Video „umkleiden". Er ist 3,5-mal kleiner als sein Vorgänger, aber viel besser und schneller.
5. Wofür braucht man das alles? (Die Anwendung)
Warum investieren wir so viel in diese virtuellen Welten?
- Sicheres Training: Roboter können Millionen von Stunden in dieser virtuellen Welt üben, ohne jemals etwas zu beschädigen. Sie können lernen, wie man einen zerbrechlichen Tassen hält, indem sie es 10.000 Mal in der Simulation tun, bevor sie es in der echten Küche versuchen.
- Autonomes Fahren: Autos können in dieser Welt lernen, wie man bei Nebel, Schnee oder plötzlich auftauchenden Hindernissen reagiert, ohne dass jemand in Gefahr gerät.
- Daten-Generator: Wenn es an echten Daten fehlt (z. B. wie sieht ein Unfall bei Regen aus?), kann der Computer diese Szenen einfach generieren, um die KI besser zu machen.
Zusammenfassung
NVIDIA hat mit Cosmos-Predict2.5 und Cosmos-Transfer2.5 eine Art „Physik-Labor im Computer" gebaut.
- Es ist wie ein unendlicher Spielplatz, in dem Roboter und Autos sicher üben können.
- Es ist wie ein magischer Filmstudio, das jede gewünschte Szene in Sekunden erstellt.
- Und das Beste: NVIDIA macht die Baupläne (den Code) und die Werkzeuge kostenlos für alle verfügbar, damit die ganze Welt daran arbeiten kann, die nächste Generation intelligenter Maschinen zu erschaffen.
Kurz gesagt: Wir bauen eine Welt, in der KI lernen kann, ohne die echte Welt zu gefährden.
Erhalten Sie solche Paper in Ihrem Posteingang
Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.