LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Each language version is independently generated for its own context, not a direct translation.

Hoe slim zijn video-AI's over de natuurwetten? (De "LikePhys"-test)

Stel je voor dat je een kunstenaar hebt die fantastische films kan maken. Hij kan prachtige zonsondergangen, dansende robots en vliegende katten creëren. Maar als je hem vraagt om een bal te laten stuiteren, laat hij de bal soms door de vloer zakken of stuiter hij als een rubberen bal die plotseling verdwijnt. Hij ziet er mooi uit, maar het voelt "fout" aan.

Dit is het probleem met de nieuwste video-AI's (zoals video-diffusiemodellen). Ze zijn geweldig in het nabootsen van hoe dingen eruitzien, maar ze begrijpen niet altijd hoe de wereld werkt. Ze kennen de "intuïtieve natuurkunde" niet.

De auteurs van dit paper (uit ICLR 2026) hebben een nieuwe manier bedacht om te testen hoe goed deze AI's de natuurwetten begrijpen. Ze noemen hun methode LikePhys.

Hier is hoe het werkt, vertaald naar simpele taal:

1. De "Gokker" in plaats van de "Kijker"

Normaal gesproken laten we een AI een video maken en kijken we of die video logisch is. Maar dat is lastig, want de AI kan een video maken die er prachtig uitziet, maar fysisch onmogelijk is.

LikePhys doet het anders. In plaats van te kijken naar de uiteindelijke video, kijken ze naar hoe de AI denkt terwijl ze de video maakt.

De Analogie: Stel je voor dat de AI een detective is die een raadsel oplost. De detective krijgt twee foto's:
1. Een foto van een bal die normaal stuitert (fysiek correct).
2. Een foto van een bal die door de vloer zakt (fysiek onmogelijk).
3. Beide foto's zien er bijna identiek uit, behalve dat ene detail.

De vraag is niet: "Welke foto is mooier?" De vraag is: "Welke foto voelt voor de detective 'natuurlijker' aan?"

2. Hoe testen ze dat? (De "Ruis"-test)

Video-AI's werken door een wazig beeld (ruis) te verwijderen om een heldere video te krijgen. Dit proces heet "denoising".

Het experiment: De onderzoekers nemen een paar video's (één correct, één fout) en maken ze eerst wazig met ruis.
De test: Ze laten de AI proberen de ruis weg te halen.
De meting: Als de AI de natuurwetten echt begrijpt, zal het voor haar makkelijker zijn om de "correcte" video te reconstrueren dan de "foute" video. De AI zal minder moeite doen (minder rekenfouten maken) voor de correcte video.

Als de AI meer moeite doet voor de correcte video dan voor de onmogelijke video, dan is ze "dom" over natuurkunde. Als ze de correcte video makkelijker vindt, dan heeft ze de natuurwetten begrepen.

3. De "Fouten-Index" (PPE)

Ze hebben een score bedacht genaamd PPE (Plausibility Preference Error).

Hoe lager de score, hoe slimmer.
Een score van 50% betekent dat de AI net zo goed gokt als een muntje opgooien.
Een lage score betekent dat de AI consequent de "logische" video herkent als de logische video.

4. Wat hebben ze ontdekt?

Ze hebben 12 verschillende video-scenario's getest, zoals:

Balletjes die botsen (Rigid Body Mechanics).
Doeken die in de wind wapperen (Continuum Mechanics).
Water dat uit een kraan stroomt (Fluid Mechanics).
Schaduwen die bewegen (Optical Effects).

De resultaten:

Oude modellen (zoals AnimateDiff) doen het vaak slecht. Ze gokken vaak verkeerd.
Nieuwe, grotere modellen (zoals Hunyuan T2V en Wan2.1) doen het veel beter. Ze begrijpen dat een bal niet door de grond kan vallen.
De zwakke plekken: AI's vinden het nog steeds heel lastig om vloeistoffen (water) en chaotische bewegingen te begrijpen. Ze vinden het makkelijker om te begrijpen hoe een schaduw werkt dan hoe water stroomt.
Schalen werkt: Hoe groter het model en hoe meer data het heeft gezien, hoe beter het de natuurwetten begrijpt.

5. Waarom is dit belangrijk?

Vroeger keken we alleen of een video er "leuk" uitzag. Nu weten we dat we ook moeten kijken of de video "logisch" is.

Voor robots is dit cruciaal. Als een robot denkt dat een bal door de vloer kan vallen, zal hij die bal nooit kunnen vangen.
Voor zelfrijdende auto's is het essentieel om te weten hoe andere auto's en objecten zich gedragen.

Kortom:
Deze paper introduceert een slimme test (LikePhys) die niet vraagt "Is dit een mooie video?", maar "Begrijpt de AI hoe de wereld werkt?". Ze hebben bewezen dat de nieuwste AI's langzaam beginnen te begrijpen hoe de natuurkunde werkt, maar dat ze nog veel moeten leren, vooral over water en complexe bewegingen. Het is alsof we de AI's eindelijk een schoolboekje over natuurkunde hebben gegeven, en ze beginnen nu de eerste hoofdstukken te begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Video-diffusiemodellen (VDMs) hebben indrukwekkende resultaten geboekt in het genereren van visueel overtuigende video's. Echter, deze modellen genereren vaak fysiek onwaarschijnlijke output (bijvoorbeeld objecten die door muren gaan, onnatuurlijke botsingen of inconsistent licht). Het evalueren van het vermogen van deze modellen om de onderliggende fysica te begrijpen ("intuïtische fysica") is een uitdaging. Bestaande methoden, zoals het gebruik van Vision Language Models (VLMs) voor beoordeling, lijden vaak onder subjectieve bias, kunnen visuele verschijning niet goed onderscheiden van fysieke juistheid, of vereisen context-geconditioneerde generatie die niet direct toepasbaar is op tekst-naar-video-modellen. Er is behoefte aan een objectieve, trainingsvrije methode om te meten in hoeverre een model de wetten van de fysica heeft "geleerd".

Methodologie: LikePhys

De auteurs stellen LikePhys voor, een trainingsvrije evaluatiemethode die gebruikmaakt van de dichtheidsschatting (density estimation) capaciteit van video-diffusiemodellen, in plaats van alleen te kijken naar de gegenereerde output.

Kernidee: De methode baseert zich op het paradigma van "schending van verwachting" (violation-of-expectation). De hypothese is dat een model met een goed begrip van fysica een hogere waarschijnlijkheid (likelihood) toekent aan fysiek geldige video's dan aan video's die een specifieke fysieke wet schenden, mits de visuele verschijning identiek blijft.
Dataset Constructie: De auteurs hebben een synthetische benchmark ontwikkeld met 12 scenario's verdeeld over vier domeinen:
- Rigid Body Mechanics: (Botsingen, vallen, schuiven, slingeren, piramide-impact).
- Continuum Mechanics: (Stoffen die hangen of wapperen).
- Fluid Mechanics: (Druppels, kraanwater, rivierstroming).
- Optical Effects: (Bewegende schaduwen, schaduwen in een baan).
- Voor elk scenario worden gepaarde video's gegenereerd: één geldig (volgt de fysica) en één ongeldig (met een gecontroleerde schending, zoals teleportatie, onmogelijke energie-overdracht of tijdsdiscontinuïteit). Visuele aspecten (camera, textuur, belichting) worden constant gehouden om visuele bias uit te sluiten.
Berekening van de Metric (PPE):
- De video's worden verstoord met ruis en door het diffusie-netwerk gevoerd.
- De denoising loss (ruisvoorspellingsfout) fungeert als een proxy voor de negatieve log-likelihood (ELBO). Een lagere loss betekent een hogere waarschijnlijkheid.
- Voor elk paar (geldig vs. ongeldig) wordt gekeken of het model de geldige video een lagere loss (hogere likelihood) toekent dan de ongeldige.
- De Plausibility Preference Error (PPE) wordt berekend als het percentage paren waarbij het model de ongeldige video een hogere waarschijnlijkheid (lagere loss) toekent dan de geldige. Een lagere PPE duidt op beter fysiek begrip.

Belangrijkste Bijdragen

LikePhys Methode: Een trainingsvrije, likelihood-preferentie methode die intuïtief fysiek begrip meet via de onderliggende waarschijnlijkheidsverdeling van het model, zonder afhankelijk te zijn van gegenereerde video's of menselijke beoordelaars.
Uitgebreide Benchmark: Een synthetische dataset van 12 scenario's die specifieke fysieke wetten isoleert onder gecontroleerde visuele omstandigheden, wat een eerlijke vergelijking tussen modellen mogelijk maakt.
Uitgebreide Analyse: Een systematische evaluatie van 12 state-of-the-art VDMs, inclusief analyse van hoe modelarchitectuur, trainingsdata, inferentie-instellingen (zoals frame-aantal en CFG-strength) en specifieke fysieke domeinen het begrip van fysica beïnvloeden.

Resultaten

Model Ranking: De auteurs hebben 12 modellen gerangschikt op basis van hun PPE. Modellen gebaseerd op Diffusion Transformers (DiT) (zoals Hunyuan T2V, Wan2.1-T2V-14B, CogVideoX1.5-5B) presteren significant beter dan oudere UNet-architecturen (zoals AnimateDiff). De beste modellen halen een gemiddelde PPE rond de 43-44%, terwijl oudere modellen vaak boven de 50% zitten (wat neerkomt op willekeurig gokken).
Alignement met Menselijke Voorkeur: De PPE-score toont een sterke correlatie (Kendall's $\tau \approx 0.44$ ) met menselijke beoordelingen van fysieke consistentie, en presteert beter dan bestaande VLM-gebaseerde evaluatoren (zoals VideoPhy en Qwen2.5-VL).
Ontkoppeling van Visuele Kwaliteit: Er is geen significante correlatie gevonden tussen PPE en traditionele visuele kwaliteitsmetrieken (zoals esthetische kwaliteit of achtergrondconsistentie). Dit bewijst dat LikePhys daadwerkelijk fysiek redeneren meet en niet alleen visuele schoonheid.
Invloed van Factoren:
- Modelgrootte: Grotere modellen presteren over het algemeen beter.
- Contextlengte (Aantal frames): Een langere tijdscontext leidt tot een betere prestatie, wat suggereert dat modellen meer tijd nodig hebben om complexe dynamiek te begrijpen.
- CFG (Classifier-Free Guidance): De sterkte van de guidance heeft weinig invloed op het fysiek begrip, wat suggereert dat dit een fundamenteel eigenschap van de getrainde verdeling is.
Domein-specifieke prestaties: Modellen doen het het beste bij Optische Effecten (licht en schaduwen), gevolgd door Rigid Body Mechanics. Ze worstelen het meest met Fluid Mechanics (vloeistoffen), waar complexe, niet-lineaire dynamica en behoudswetten (massa, viscositeit) moeilijk te modelleren zijn.

Betekenis en Impact

Het paper biedt een cruciaal inzicht in de huidige staat van video-generatie als "wereldmodellen". Het bewijst dat hoewel moderne VDMs beginnen om fysieke principes te internaliseren, er nog aanzienlijke ruimte is voor verbetering, vooral bij complexe dynamica zoals vloeistoffen.

De LikePhys-methode is significant omdat het:

Een objectieve, reproduceerbare standaard biedt voor het evalueren van fysiek begrip zonder menselijke bias.
Laat zien dat het meten van de onderliggende waarschijnlijkheidsverdeling (via denoising loss) een krachtigere indicator is voor fysiek begrip dan het beoordelen van de gegenereerde output.
Richtlijnen geeft voor toekomstig onderzoek: het vergroten van modelgrootte, het gebruik van langere contextvensters en het trainen op grotere datasets zijn essentiële stappen om fysiek plausibele wereldsimulatoren te bouwen.

De auteurs benadrukken dat hun methode ook beperkingen heeft, zoals de noodzaak van gesimuleerde data (omdat echte data geen gecontroleerde fysieke schendingen bevat) en de afhankelijkheid van toegang tot de ruisonderzoeksfouten van het model (wat lastig is bij gesloten bronmodellen). Desalniettemin biedt het een robuust kader voor de volgende generatie video-generatiemodellen.

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

1. De "Gokker" in plaats van de "Kijker"

2. Hoe testen ze dat? (De "Ruis"-test)

3. De "Fouten-Index" (PPE)

4. Wat hebben ze ontdekt?

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie: LikePhys

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning