LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

Dit paper introduceert LeWorldModel, het eerste stabiele end-to-end Joint-Embedding Predictive Architecture (JEPA) dat direct van ruwe pixels leert met slechts twee verliesfuncties, waardoor het aanzienlijk sneller en efficiënter is dan bestaande wereldmodellen terwijl het toch robuuste fysische structuren leert voor controle en anomaliedetectie.

Lucas Maes, Quentin Le Lidec, Damien Scieur, Yann LeCun, Randall Balestriero

Gepubliceerd 2026-03-23
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kind bent dat leert hoe de wereld werkt. Je ziet een bal die rolt, je duwt hem, en hij stopt ergens anders. Je brein bouwt een onzichtbaar model op van hoe dingen bewegen, zonder dat iemand je de wiskundige formules uitlegt. Je "voelt" gewoon dat als je harder duwt, de bal verder gaat.

Dit is precies wat kunstmatige intelligentie (AI) probeert te doen, maar dan met camera's in plaats van ogen. Het nieuwe onderzoek van LeWorldModel (of LeWM) is een grote stap in die richting. Hier is de uitleg, vertaald naar alledaags taal met een paar leuke vergelijkingen.

Het Probleem: De "Slapende" AI

Vroeger waren AI-modellen die de wereld probeerden te begrijpen, erg kwetsbaar. Ze hadden een vervelende gewoonte: ze werden "lui".
Stel je een student voor die voor een examen moet leren. In plaats van de stof echt te begrijpen, leert hij één antwoord uit zijn hoofd en geeft dat antwoord op elke vraag. Dat is makkelijk, maar het werkt niet als de vraag verandert.

In de AI-wereld noemen we dit instorting (collapse). Het model leert dat het makkelijkst is om elke afbeelding om te zetten in exact hetzelfde puntje in zijn hoofd. Dan kan het wel voorspellen wat er gebeurt, maar het begrijpt niets. Om dit te voorkomen, moesten onderzoekers tot nu toe heel veel ingewikkelde regels en "trucs" gebruiken (zoals een tweede brein dat nooit verandert, of complexe straffen). Dit maakte het trainen van deze modellen erg moeilijk, duur en onstabiel.

De Oplossing: LeWorldModel (LeWM)

De auteurs van dit papier hebben een nieuwe manier bedacht om deze AI te trainen. Ze noemen het LeWorldModel. Het is als het geven van een slimme, simpele opdracht aan een leerling, in plaats van hem met duizenden regels te overladen.

Hoe werkt het? (De Twee Regels)
In plaats van een ingewikkeld spel met veel regels, gebruikt LeWM slechts twee simpele regels:

  1. De Voorspeller: "Als ik nu dit zie en ik doe dit, wat zie ik dan een seconde later?"
    • Vergelijking: Stel je voor dat je een film kijkt, maar dan met de audio uit. Je probeert te raden wat er in de volgende scène gebeurt op basis van wat je nu ziet en wat je net hebt gedaan.
  2. De "Niet-Vermoeidheids"-Regel: "Zorg dat je antwoorden niet allemaal hetzelfde zijn."
    • Vergelijking: Stel je een klaslokaal voor. Als elke leerling precies hetzelfde antwoord geeft, is er geen discussie. LeWM dwingt de AI om zijn antwoorden (zijn "latente ruimte") te verspreiden, alsof het een regenboog van verschillende kleuren is in plaats van één grijze massa. Dit zorgt ervoor dat de AI echt verschillende dingen onderscheidt.

Het mooie is: dit werkt end-to-end. Dat betekent dat de AI leert direct vanuit de ruwe beelden van de camera, zonder dat iemand eerst handmatig moet uitleggen wat een "wiel" of een "muur" is. Het leert alles zelf, net als een kind.

Waarom is dit zo speciaal?

  • Het is goedkoper en sneller: Vroeger hadden zulke modellen enorme rekenkracht nodig (zoals een hele fabriek aan computers). LeWM kan trainen op één enkele grafische kaart (een GPU) in een paar uur. Het is alsof je van een zware vrachtwagen naar een snelle elektrische scooter overstapt.
  • Het is sneller in plannen: Als de AI een taak moet uitvoeren (bijvoorbeeld een blokje duwen naar een doel), moet het eerst nadenken: "Als ik hier duw, wat gebeurt er dan?" LeWM doet dit 48 keer sneller dan de beste concurrenten. Het is alsof het AI-brein in een seconde een heel leven aan scenario's heeft doorgespeeld.
  • Het begrijpt de natuurwetten: De onderzoekers hebben getest of de AI echt begrijpt hoe de wereld werkt. Ze deden een "verrassingstest".
    • Het experiment: Ze lieten de AI een video zien waarin een blokje plotseling verdween en ergens anders weer verscheen (alsof het teleporteerde).
    • Het resultaat: De AI werd "verbaasd". Zijn voorspelling klopte niet meer met de werkelijkheid. Dit betekent dat de AI een innerlijk gevoel heeft voor fysica: het weet dat dingen niet zomaar teleporteren.

De Vergelijking: De Bouwvakker vs. De Architect

  • Oude methoden (zoals DINO-WM): Dit is als een bouwvakker die een huis bouwt, maar alleen mag werken met de blauwdrukken van een ander die hij niet zelf heeft getekend. Hij kan het huis wel bouwen, maar als er iets onverwachts gebeurt, weet hij niet hoe hij moet reageren omdat hij de basisprincipes niet zelf heeft ontdekt.
  • LeWM: Dit is een architect die zelf het huis ontwerpt, van de grond af. Hij begrijpt waarom de muren staan waar ze staan. Als hij een nieuwe kamer moet toevoegen, kan hij dat snel en slim doen, omdat hij de logica van het hele gebouw begrijpt.

Conclusie

LeWorldModel is een doorbraak omdat het laat zien dat je geen ingewikkelde trucs nodig hebt om een AI een wereldmodel te laten bouwen. Met twee simpele regels kan een AI leren hoe de wereld werkt, plannen maken en zelfs "verrassing" voelen als de natuurwetten worden overtreden.

Het is een stap dichter bij AI die niet alleen data onthoudt, maar echt begrijpt hoe de wereld in elkaar zit, zodat het in de toekomst zelfstandig nieuwe vaardigheden kan leren, net als wij mensen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →