Each language version is independently generated for its own context, not a direct translation.
Hoe slim zijn video-AI's over de natuurwetten? (De "LikePhys"-test)
Stel je voor dat je een kunstenaar hebt die fantastische films kan maken. Hij kan prachtige zonsondergangen, dansende robots en vliegende katten creëren. Maar als je hem vraagt om een bal te laten stuiteren, laat hij de bal soms door de vloer zakken of stuiter hij als een rubberen bal die plotseling verdwijnt. Hij ziet er mooi uit, maar het voelt "fout" aan.
Dit is het probleem met de nieuwste video-AI's (zoals video-diffusiemodellen). Ze zijn geweldig in het nabootsen van hoe dingen eruitzien, maar ze begrijpen niet altijd hoe de wereld werkt. Ze kennen de "intuïtieve natuurkunde" niet.
De auteurs van dit paper (uit ICLR 2026) hebben een nieuwe manier bedacht om te testen hoe goed deze AI's de natuurwetten begrijpen. Ze noemen hun methode LikePhys.
Hier is hoe het werkt, vertaald naar simpele taal:
1. De "Gokker" in plaats van de "Kijker"
Normaal gesproken laten we een AI een video maken en kijken we of die video logisch is. Maar dat is lastig, want de AI kan een video maken die er prachtig uitziet, maar fysisch onmogelijk is.
LikePhys doet het anders. In plaats van te kijken naar de uiteindelijke video, kijken ze naar hoe de AI denkt terwijl ze de video maakt.
- De Analogie: Stel je voor dat de AI een detective is die een raadsel oplost. De detective krijgt twee foto's:
- Een foto van een bal die normaal stuitert (fysiek correct).
- Een foto van een bal die door de vloer zakt (fysiek onmogelijk).
- Beide foto's zien er bijna identiek uit, behalve dat ene detail.
De vraag is niet: "Welke foto is mooier?" De vraag is: "Welke foto voelt voor de detective 'natuurlijker' aan?"
2. Hoe testen ze dat? (De "Ruis"-test)
Video-AI's werken door een wazig beeld (ruis) te verwijderen om een heldere video te krijgen. Dit proces heet "denoising".
- Het experiment: De onderzoekers nemen een paar video's (één correct, één fout) en maken ze eerst wazig met ruis.
- De test: Ze laten de AI proberen de ruis weg te halen.
- De meting: Als de AI de natuurwetten echt begrijpt, zal het voor haar makkelijker zijn om de "correcte" video te reconstrueren dan de "foute" video. De AI zal minder moeite doen (minder rekenfouten maken) voor de correcte video.
Als de AI meer moeite doet voor de correcte video dan voor de onmogelijke video, dan is ze "dom" over natuurkunde. Als ze de correcte video makkelijker vindt, dan heeft ze de natuurwetten begrepen.
3. De "Fouten-Index" (PPE)
Ze hebben een score bedacht genaamd PPE (Plausibility Preference Error).
- Hoe lager de score, hoe slimmer.
- Een score van 50% betekent dat de AI net zo goed gokt als een muntje opgooien.
- Een lage score betekent dat de AI consequent de "logische" video herkent als de logische video.
4. Wat hebben ze ontdekt?
Ze hebben 12 verschillende video-scenario's getest, zoals:
- Balletjes die botsen (Rigid Body Mechanics).
- Doeken die in de wind wapperen (Continuum Mechanics).
- Water dat uit een kraan stroomt (Fluid Mechanics).
- Schaduwen die bewegen (Optical Effects).
De resultaten:
- Oude modellen (zoals AnimateDiff) doen het vaak slecht. Ze gokken vaak verkeerd.
- Nieuwe, grotere modellen (zoals Hunyuan T2V en Wan2.1) doen het veel beter. Ze begrijpen dat een bal niet door de grond kan vallen.
- De zwakke plekken: AI's vinden het nog steeds heel lastig om vloeistoffen (water) en chaotische bewegingen te begrijpen. Ze vinden het makkelijker om te begrijpen hoe een schaduw werkt dan hoe water stroomt.
- Schalen werkt: Hoe groter het model en hoe meer data het heeft gezien, hoe beter het de natuurwetten begrijpt.
5. Waarom is dit belangrijk?
Vroeger keken we alleen of een video er "leuk" uitzag. Nu weten we dat we ook moeten kijken of de video "logisch" is.
- Voor robots is dit cruciaal. Als een robot denkt dat een bal door de vloer kan vallen, zal hij die bal nooit kunnen vangen.
- Voor zelfrijdende auto's is het essentieel om te weten hoe andere auto's en objecten zich gedragen.
Kortom:
Deze paper introduceert een slimme test (LikePhys) die niet vraagt "Is dit een mooie video?", maar "Begrijpt de AI hoe de wereld werkt?". Ze hebben bewezen dat de nieuwste AI's langzaam beginnen te begrijpen hoe de natuurkunde werkt, maar dat ze nog veel moeten leren, vooral over water en complexe bewegingen. Het is alsof we de AI's eindelijk een schoolboekje over natuurkunde hebben gegeven, en ze beginnen nu de eerste hoofdstukken te begrijpen.