UniFuture: A 4D Driving World Model for Future Generation and Perception

In dit artikel wordt UniFuture gepresenteerd, een unificerend 4D-wereldmodel voor autonoom rijden dat RGB-afbeeldingen en dieptekaarten gezamenlijk genereert via een gedeelde latentruimte, waardoor het zowel de toekomstige visuele evolutie als de geometrische consistentie van de omgeving nauwkeuriger simuleert dan bestaande methoden.

Dingkang Liang, Dingyuan Zhang, Xin Zhou, Sifan Tu, Tianrui Feng, Xiaofan Li, Yumeng Zhang, Mingyang Du, Xiao Tan, Xiang Bai

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zelfrijdende auto bent. Je kijkt door je ramen en ziet de wereld om je heen. Maar een gewone camera ziet alleen een platte film: twee dimensies (hoogte en breedte). Een echte auto moet de wereld echter zien als een drie-dimensionale ruimte die in de tijd beweegt. Dat is vier dimensies: lengte, breedte, hoogte én tijd.

Het probleem met de meeste huidige systemen is dat ze ofwel heel goede films maken (maar dan zonder diepte, alsof het een tekening is), ofwel heel goede 3D-kaarten maken van het nu, maar dan niet kunnen voorspellen wat er straks gebeurt.

UniFuture is de nieuwe oplossing die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Twee-in-één" Superkracht

Stel je voor dat je een film kijkt.

  • De oude manier: De ene computer kijkt alleen naar de kleuren en beweging (de film). De andere computer kijkt alleen naar de afstanden en vormen (de 3D-kaart). Ze praten niet met elkaar.
  • De UniFuture-methode: UniFuture is als een tweeling die in één hoofd woont. Ze denken dat "de film" en "de 3D-kaart" eigenlijk twee verschillende manieren zijn om naar dezelfde wereld te kijken.

Ze gebruiken een trucje genaamd Dual-Latent Sharing. In plaats van twee aparte hersenen te trainen, dwingen ze de computer om de kleuren (de auto's, de bomen) en de diepte (hoe ver ze weg zijn) in dezelfde geheugenruimte op te slaan.

  • Analogie: Het is alsof je niet alleen een foto van een cake maakt, maar ook direct de receptuur (hoeveel suiker, hoe hoog hij is) in dezelfde notitieboekje schrijft. Als je de foto wilt veranderen, weet je automatisch ook hoe de cake eruit moet zien.

2. De "Glasvezel" die Alles Verbindt

Nu hebben ze een gedeeld geheugen, maar hoe zorgen ze ervoor dat de film en de kaart perfect op elkaar aansluiten? Ze gebruiken een systeem genaamd Multi-scale Latent Interaction.

Stel je voor dat je een bouwpakket hebt.

  • De film (de kleuren) zegt: "Hier komt een rode auto."
  • De diepte (de vorm) zegt: "Die auto moet op de weg staan, niet zweven."

UniFuture laat deze twee voortdurend met elkaar praten via een tweeweg-communicatie:

  1. Van vorm naar kleur: De 3D-structuur zegt tegen de film: "Hé, die auto mag niet door de muur gaan!" Dit voorkomt dat de computer hallucinaties maakt (zoals zwevende auto's).
  2. Van kleur naar vorm: De film zegt tegen de 3D-structuur: "Kijk, die auto is rood en glanst, dus hij moet hier zijn." Dit helpt de computer om de afstand beter te schatten.

Dit gebeurt op verschillende niveaus (van grove lijnen tot fijne details), net zoals je eerst de contouren van een tekening maakt en daarna pas de details invult.

3. Wat levert dit op?

Wanneer UniFuture een foto van het heden krijgt, doet het niet alleen een gokje over hoe de volgende beelden eruit zien. Het simuleert de toekomst.

  • Voor de auto: Het kan zien hoe de wereld eruit zal zien over 10 seconden, inclusief hoe ver andere auto's weg zijn. Dit is cruciaal om veilig te remmen of te sturen.
  • Voor de mens: Het is alsof je een "tijdreis-motor" hebt. Je kijkt naar een statische foto, en UniFuture bouwt daar een levendige, 3D-animatie van op, waarbij alles logisch blijft (geen vervormingen, geen zwevende objecten).

Waarom is dit zo belangrijk?

Tot nu toe waren systemen ofwel kunstenaars (mooie films maken, maar fysiek onmogelijk) ofwel architecten (precieze 3D-plannen, maar stilstaand).

UniFuture is de regisseur én de architect in één. Het zorgt ervoor dat de auto niet alleen ziet wat er gebeurt, maar ook begrijpt hoe de ruimte eromheen zich in de tijd verplaatst. Hierdoor kunnen zelfrijdende auto's veiliger worden, omdat ze de toekomst niet alleen "zien", maar ook "voelen" in 3D.

Kortom: UniFuture is de eerste computer die de wereld niet als een platte film ziet, maar als een levendige, driedimensionale ruimte die in de tijd beweegt, en dat allemaal in één keer.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →