DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kind bent dat voor het eerst een speelgoedautootje ziet. Als je het een paar keer duwt en ziet hoe het rolt, leert een slimme computer (een "AI") snel hoe het eruitziet. Maar als je de auto nu op een helling zet, of als je er een zware steen op legt, raakt de AI in de war. Waarom? Omdat de AI alleen heeft geleerd hoe het eruitziet (de statistiek), maar niet hoe het werkt (de natuurwetten).

Dit is het probleem dat het nieuwe onderzoek DreamSAC probeert op te lossen. Hier is een simpele uitleg, met wat creatieve vergelijkingen.

1. Het Probleem: De "Kijkende" Robot

Stel je een robot voor die een film kijkt van een bal die stuitert.

De oude manier (Passief): De robot kijkt naar de film en zegt: "Als de bal hier is, is hij daar de volgende seconde." Hij heeft een heel goed geheugen voor wat hij heeft gezien. Maar als je de zwaartekracht verandert (bijvoorbeeld op de maan), faalt de robot. Hij heeft alleen de beelden geleerd, niet de wetten van de zwaartekracht.
Het gevolg: De robot is een uitstekende acteur die een script uit het hoofd leert, maar een slechte ingenieur die niet snapt waarom dingen vallen.

2. De Oplossing: De "Nieuwsgierige" Ontdekker

De auteurs van DreamSAC zeggen: "We moeten de robot niet alleen laten kijken, maar hem laten voelen en uitdagen."

Ze introduceren een concept dat ze Symmetrie-Exploratie noemen. Laten we dit vergelijken met een kind in een donkere kamer met een nieuwe luidspreker.

De oude robot: Zou stil blijven staan en hopen dat er geluid komt.
De DreamSAC-robot: Zegt: "Ik wil weten hoe dit werkt!" Hij begint te schudden, te tikken en te duwen. Hij probeert de luidspreker te breken om te zien wat er gebeurt.

In de wereld van de AI betekent dit: De robot krijgt een beloning (een soort "smaakje") als hij iets doet dat zijn huidige kennis uitdaagt. Hij probeert actief de "natuurwetten" te testen. Als hij merkt dat zijn voorspelling over de energie van een object niet klopt, leert hij daar direct van.

3. De "Hamiltoniaanse" Hartklopping

Het hart van DreamSAC is een Hamiltoniaans Wereldmodel. Klinkt ingewikkeld? Laten we het zo zien:

Stel je voor dat de wereld een groot, complex uurwerk is.

De meeste AI's proberen het uurwerk te beschrijven door naar de wijzers te kijken.
DreamSAC probeert de veertjes en tandwielen te begrijpen die het uurwerk laten tikken.

In de natuurkunde is er een wet die zegt dat energie niet zomaar verdwijnt (behoud van energie). DreamSAC bouwt een robot die dit als een basisregel in zijn hoofd heeft. Hij leert niet alleen "wat er gebeurt", maar "waarom het gebeurt" op basis van energie en beweging.

4. Hoe werkt het precies? (De Drie Stappen)

De Nieuwsgierige Duw: De robot krijgt een opdracht: "Doe iets dat veel energie kost!" Hij duwt, trekt en stuitert tegen dingen aan. Dit noemen ze Symmetrie-Exploratie. Hij zoekt naar situaties waar zijn huidige kennis faalt, zodat hij die kan verbeteren.
De Onzichtbare Bril: De robot kijkt naar de wereld via een camera. Maar als je de camera beweegt, verandert het beeld, terwijl de bal hetzelfde blijft. DreamSAC leert de robot om door de "ruis" van de camera te kijken en de echte, onzichtbare fysieke toestand van de bal te zien. Het is alsof de robot een X-straalbril draagt die alleen de beweging en energie ziet, niet de kleur of de hoek.
De Snelle Aanpassing: Als de robot nu in een nieuwe wereld terechtkomt (bijvoorbeeld met zwaarder zand of minder zwaartekracht), hoeft hij niet van nul af aan te beginnen. Omdat hij de wetten heeft geleerd en niet alleen de beelden, past hij zich razendsnel aan. Het is het verschil tussen iemand die een recept uit het hoofd leert (moet opnieuw leren als je ingrediënten verandert) en een chef-kok die begrijpt hoe smaken samenkomen (kan met elk ingrediënt koken).

Waarom is dit belangrijk?

Vroeger waren robots heel goed in het nabootsen van wat ze zagen, maar heel slecht in het omgaan met onverwachte situaties. DreamSAC maakt robots die echt begrijpen hoe de wereld werkt.

Voorbeeld: Als je een robot leert om een kopje te dragen, en je verandert de zwaartekracht, zal een oude robot de kopje laten vallen. Een DreamSAC-robot denkt: "Oh, de zwaartekracht is zwaarder, ik moet harder duwen," en redt het kopje.

Samenvattend

DreamSAC is als het verschil tussen een fotograaf die alleen foto's maakt van een auto, en een monteur die de motor openmaakt om te begrijpen hoe hij rijdt. Door de robot te laten speuren naar de natuurwetten in plaats van alleen naar beelden te kijken, maken ze robots die veel slimmer, veiliger en flexibeler zijn in onze echte, chaotische wereld.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Bestaande wereldmodellen (world models) in versterkend leren (RL) excelleren in interpolatieve generalisatie: ze kunnen scenario's voorspellen die lijken op de trainingsdata. Ze falen echter vaak bij extrapolatieve generalisatie, vooral wanneer ze geconfronteerd worden met nieuwe fysische parameters (zoals zwaartekracht, wrijving of massa) of onbekende objectinteracties.

De kern van dit probleem is dat deze modellen voornamelijk statistische correlaties in pixeldata leren in plaats van de onderliggende generatieve regels (fysische wetten) te ontdekken. Ze zijn passieve leeraars die overfit op visuele patronen, wat leidt tot spurious correlaties en een gebrek aan begrip van behoudswetten (zoals energiebehoud) en symmetrieën.

2. Methodologie: DreamSAC

Het paper introduceert DreamSAC (Dream with Symmetry-Aware Curiosity), een raamwerk dat actief leren combineert met fysisch onderbouwde wereldmodellen. De aanpak bestaat uit twee hoofdcomponenten:

A. Hamiltonian World Model (Hϕ)

In plaats van een standaard "black-box" dynamisch model (zoals in DreamerV3), gebruikt DreamSAC een model dat is gebaseerd op Hamiltoniaanse dynamica.

Toestandrepresentatie: De latent state $Z_t$ wordt opgesplitst in gegeneraliseerde coördinaten ( $q_t$ ) en canonieke momenta ( $p_t$ ).
Symmetrie-invariantie: Het model is ontworpen om invariant te zijn onder transformaties van de 3D-fysische symmetriegroep $G$ (bijv. SE(3)). Dit betekent dat de Hamiltoniaan $H_\phi$ dezelfde energie voorspelt, ongeacht het cameraviewpoint.
Contrastief Leren: Om de tegenstelling op te lossen tussen reconstructie (die viewpoint-afhankelijk is) en fysische invariantie, wordt een Viewpoint-Robustness Loss ( $L_{vr}$ ) gebruikt. Dit is een zelftoezichtende contrastieve loss die de encoder dwingt viewpoint-variabelen te filteren en alleen de onderliggende fysische toestand te coderen.
Integratie: Tijdens inferentie wordt een symplectische integrator (Leapfrog) gebruikt om energiebehoud te garanderen, terwijl tijdens training een Euler-integrator wordt gebruikt voor stabiliteit.

B. Symmetry Exploration (Actief Leren)

Om het Hamiltoniaanse model effectief te leren, is passieve data verzameling niet voldoende. Het agent moet actief de fysische wetten "uitdagen".

Symmetrie-bewuste Curiosity: De agent krijgt een intrinsieke beloning ( $r_{sym}$ ) gebaseerd op de verandering in de Hamiltoniaan: $r_{sym} \approx |\Delta H_\phi|$ .
Fysische Logica: Volgens de stelling van Noether zijn symmetrieën gekoppeld aan behoudswetten. In een gesloten systeem is $\Delta H \approx 0$ . Om de structuur van $H_\phi$ te leren, moet de agent externe krachten uitoefenen die werk verrichten en de symmetrie breken (d.w.z. grote energievariaties veroorzaken).
Annealing-strategie: Omdat het Hamiltoniaanse model in het begin willekeurig is (en dus $r_{sym}$ ruisig), start de agent met een standaard RND (Random Network Distillation) beloning voor algemene nieuwsgierigheid. Naarmate het model verbetert, wordt de beloning geleidelijk verschoven naar de fysica-gedreven $r_{sym}$ .

3. Belangrijkste Bijdragen

Symmetry Exploration: Een onbewaakte exploratiestrategie die de agent intrinsiek motiveert om interacties te zoeken die de grootste verandering in energie veroorzaken, waardoor fysisch informatieve data wordt verzameld.
Hamiltonian World Model met Contrastief Leren: Een wereldmodel dat fysische symmetrieën inbouwt en via contrastief leren viewpoint-invariante representaties leert uit ruwe pixels.
Differentiated Fine-tuning: Een aanpassingsstrategie waarbij de encoder en de symmetrie-structuur bevroren blijven, terwijl alleen de fysische parameters (zoals massa of wrijving) snel worden bijgesteld voor nieuwe taken. Dit zorgt voor snelle adaptatie.

4. Resultaten

DreamSAC is geëvalueerd op diverse 3D-fysica-benchmarks (DeepMind Control Suite en GymFetch) en presteert significant beter dan state-of-the-art baselines (zoals DreamerV3 en DreamerV3+RND).

Voorspellende Nauwkeurigheid: DreamSAC bereikt een veel lagere Mean Squared Error (MSE) bij beeldvoorspelling, zelfs over lange roll-out horizons. Bijvoorbeeld, op de 'Acrobot' taak is de MSE 10x lager dan bij DreamerV3.
Extrapolatie (OOD): Het model toont superieure prestaties bij Out-of-Distribution (OOD) taken, zoals:
- Ongeziene Viewpoints: Werken met camerahoeken die nooit tijdens training zijn gezien.
- Ongeziene Fysische Parameters: Aanpassing aan 1.5x zwaartekracht of 2.0x wrijving.
- Nieuwe Objectconfiguraties: Werken met meer objecten dan tijdens training.
Zero-Shot Generalisatie: Zelfs zonder aanpassing (fine-tuning) presteert het model beter dan baselines op nieuwe fysica, wat aantoont dat het de onderliggende wetten heeft geleerd.
Ablatie Studies: Het verwijderen van de contrastieve loss ( $L_{vr}$ ) of de Hamiltoniaanse structuur leidt tot een drastische daling in prestaties, wat bewijst dat beide componenten essentieel zijn.

5. Betekenis en Impact

DreamSAC markeert een verschuiving van passief statistisch leren naar actief fysica-ontdekken.

Robuustheid: Door expliciet te leren over behoudswetten en symmetrieën, kunnen agenten beter omgaan met de onvoorspelbaarheid van de echte wereld.
Efficiëntie: De methode vereist minder data om nieuwe fysica te leren omdat het de onderliggende structuur (de vorm van de wetten) al kent en alleen de parameters hoeft te schatten.
Toekomstperspectief: Dit werk opent de deur voor robotica en AI-systemen die niet alleen "zien" wat er gebeurt, maar begrijpen waarom het gebeurt, wat essentieel is voor veilige en betrouwbare inzet in complexe omgevingen.

Kortom, DreamSAC lost het probleem van extrapolatie op door agenten te leren om de fundamentele invariantheden van de fysica actief te ontdekken in plaats van alleen visuele patronen te memoriseren.