COMBAT: Conditional World Models for Behavioral Agent Training

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een videospelletje speelt, zoals een vechtspel. Normaal gesproken zit er een computer tegenstander in die vooraf geprogrammeerd is: hij doet altijd precies hetzelfde als jij een bepaalde knop indrukt. Maar wat als die computer tegenstander echt slim zou zijn? Wat als hij kon leren, improviseren en op je bewegingen reageerde alsof hij een echte mens is, zonder dat iemand hem ooit heeft verteld wat hij moet doen?

Dat is precies wat het team achter COMBAT heeft gedaan. Hier is een uitleg in gewone taal, met een paar leuke vergelijkingen.

1. Het Probleem: De "Stomme" Spiegel

Tot nu toe konden AI-modellen al heel goed video's maken die er realistisch uitzien. Ze konden bijvoorbeeld een auto laten rijden of een persoon laten dansen. Maar er was een groot probleem: deze modellen waren als een stomme spiegel. Als je in de spiegel stapt, zie je jezelf, maar de spiegel doet niets terug. Als je de spiegel duwt, duwt hij niet terug.

In een spel betekent dit: als jij je tegenstander slaat, doet de tegenstander niets verstandigs. Hij reageert niet slim, hij "weet" niet dat hij geraakt is. Bestaande modellen konden wel een wereld simuleren, maar geen slimme, reactieve personages.

2. De Oplossing: COMBAT (De "Onzichtbare Leraar")

De onderzoekers hebben een nieuw systeem bedacht, genaamd COMBAT. Ze hebben dit getraind op het oude vechtspel Tekken 3.

Hier is het geniale trucje:
Ze hebben de AI alleen de bewegingen van Speler 1 (jou) gegeven. Ze hebben de AI nooit verteld wat Speler 2 (de tegenstander) deed. De AI zag alleen jou vechten en moest de rest van het filmpje invullen.

Je kunt het vergelijken met een toneelstuk waarbij je alleen de tekst van de hoofdpersoon hebt, maar niet die van de tegenpartij. Als je die tekst vaak genoeg leest, begint de AI vanzelf te begrijpen: "Ah, als deze persoon hier een vuistslag geeft, is het logisch dat de ander terugslaat of uitwijkt."

De AI heeft de regels van het spel en de tactiek van de tegenstander impliciet geleerd, puur door te kijken naar wat er logisch zou moeten gebeuren.

3. Hoe werkt het? (De "Zenuwstelsel" van het spel)

Om dit te doen, hebben ze een heel groot brein gebruikt, een Diffusion Transformer (met 1,2 miljard parameters). Dat klinkt ingewikkeld, maar je kunt het zien als een super-snel schetsblok.

De Schets: De AI tekent eerst heel ruwe schetsen van wat er gaat gebeuren (in een ingewikkeld "geheugen" van het spel).
De verf: Vervolgens maakt hij deze schetsen steeds scherper en realistischer, totdat het een perfect filmpje is.
De Snelheid: Normaal duurt zo'n proces lang. Maar de onderzoekers hebben een trucje gebruikt (genaamd distillation), alsof ze een leerling hebben die de meester observeert. De leerling doet de bewegingen na, maar dan in 4 stappen in plaats van honderden. Hierdoor kan het spel in echt-tijd worden gespeeld (85 beelden per seconde!).

4. Wat gebeurde er? (De "Geboorte" van een Kampioen)

Het meest fascinerende is wat er gebeurde met Speler 2. Omdat de AI nooit had geleerd hoe je moet vechten, maar alleen wat er gebeurt als je vecht, begon Speler 2 vanzelf slimme dingen te doen:

Hij blokkeerde als jij sloeg.
Hij maakte combinaties (combo's) als jij open stond.
Hij reageerde op je strategie.

Het was alsof je een baby in een kamer zet met een vechtspel en je zegt: "Kijk maar." Na een tijdje begint de baby niet alleen te kijken, maar ook te vechten alsof hij een pro is. Dit noemen ze emergent gedrag: gedrag dat ontstaat zonder dat je het expliciet hebt ingebouwd.

5. Waarom is dit belangrijk?

Dit is een enorme stap vooruit voor de toekomst van AI:

Voor Games: Je kunt nu tegenstanders hebben die echt meedenken en zich aanpassen, zonder dat programmeurs duizenden regels code hoeven te schrijven.
Voor de Wereld: Hetzelfde principe kan worden gebruikt voor zelfrijdende auto's. Als je een auto leert kijken naar hoe voetgangers reageren op andere auto's, kan de AI vanzelf leren hoe hij veilig moet rijden, zonder dat iemand hem elke situatie heeft voorgelegd.

Samenvattend

Stel je voor dat je een film draait van een vechtpartij. Normaal moet je elke actie van elke acteur van tevoren plotten. Met COMBAT geef je de regisseur (de AI) alleen de tekst van de hoofdpersoon. En dan blijkt dat de regisseur vanzelf een perfecte, slimme tegenpartij bedenkt die precies doet wat nodig is.

Het is alsof je een magische spiegel hebt die niet alleen je bewegingen weerspiegelt, maar ook een slimme tegenstander creëert die je uitdaagt, puur door te kijken naar wat logisch is.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Recente vooruitgang in generatieve AI heeft geleid tot wereldmodellen die 3D-consistente omgevingen en interacties met statische objecten kunnen simuleren. Een significante beperking van deze modellen is echter het vermogen om dynamische, reactieve agenten te modelleren die intelligent de wereld kunnen beïnvloeden en ermee kunnen interageren.

Bestaande methoden voor het leren van agentgedrag uit observatiedata (zoals in autonoom rijden of gevechtsspellen) stuiten op uitdagingen door de gedeeltelijke waarneembaarheid (partial observability). Vaak zijn de beslissingsprocessen en observaties van de tegenstander verborgen. Traditionele imitatielearning vereist volledige actie-labels voor alle agenten, wat in de praktijk vaak ontbreekt. Het paper stelt de vraag of een wereldmodel in staat is om het gedrag van een oncontroleerbare tegenstander (Player 2) impliciet te leren, uitsluitend door te trainen op de input van een controleerbare speler (Player 1), zonder expliciete supervisie voor de tegenstander.

2. Methodologie

De auteurs introduceren COMBAT (Conditional world Model for Behavioral Agent Training), een real-time, actie-gestuurd wereldmodel getraind op het gevechtsspel Tekken 3.

Dataverzameling en Voorbereiding

Dataset: 1.000 rondes Tekken 3-gameplay (ongeveer 1,2 miljoen frames).
Annotaties: Per frame zijn er synchronisatiegegevens voor: actie-inputs van beide spelers, gezondheid/timer-status, 68-punts lichaamspose-coördinaten en segmentatiemaskers.
Opdracht: Het model moet de volgende frame voorspellen ( $s_{t+1}$ ) op basis van de huidige staat en de actie-inputs van Player 1 ( $a^{(1)}_t$ ), zonder de acties van Player 2 ( $a^{(2)}_t$ ) te kennen.

Modelarchitectuur

Het systeem bestaat uit drie hoofdblokken:

Multi-Modal Variational Autoencoder (DCAE):
- Een 340M-parameter model dat visuele frames (RGB) en pose-keypoints comprimeert tot een compacte latente representatie (shape: $128 \times 23 \times 11$ ).
- Voor real-time inferentie wordt de decoder gedistilleerd naar een lichtgewicht versie van 44M parameters.
Diffusion Transformer (DiT) Backbone:
- Een 1,2 miljard parameter groot model dat de latente ruimtes denoist en toekomstige frames voorspelt.
- Conditie: Het model wordt geconditioneerd op de latent-representaties en de actie-inputs van Player 1 (gecodeerd als een multi-hot vector over 8 knoppen).
- Aandachtmechanisme: Een hybride strategie met lokale schuifvensters (16 frames) voor korte termijn en globale aandacht (elke 4e laag) voor lange termijn afhankelijkheden.
Versnelde Inferentie:
- Om real-time prestaties te bereiken, worden twee optimalisatietechnieken toegepast:
  - Decoder Distillation: Vermindering van de decoder-complexiteit.
  - CausVid DMD (Distribution Matching Distillation): Een methode om het aantal inferentiestappen te reduceren tot 4 stappen, terwijl de kwaliteit behouden blijft. Dit vermindert het "autoregressive drift"-probleem.

3. Belangrijkste Bijdragen

Emergent Gedrag zonder Supervisie: Het paper demonstreert dat een wereldmodel, getraind uitsluitend op de input van één speler, complex tactisch gedrag (zoals blokkeren, tegenaanvallen en combo's uitvoeren) kan leren voor de oncontroleerbare tegenstander. Dit gedrag ontstaat impliciet als een eigenschap van het modelleren van temporele consistentie.
Nieuwe Evaluatiemethoden: De auteurs introduceren nieuwe benchmarks om emergent gedrag te meten, aangezien traditionele video-metrics onvoldoende zijn voor agent-intelligentie:
- Behavioral Consistency Metrics: Analyse van schadeverdeling en gezondheidstrajecten om te zien of de game-regels en het tempo realistisch worden nagebootst.
- Human-Interpretable Metrics: Total Action Adherence (TAA) en Action Ratio Consistency (ARC) om de activiteit en de balans tussen vuisten en trappen van de gegenereerde agent te vergelijken met menselijk spel.
Real-time Prestaties: Door distillatie bereikt het model 85 FPS op een enkele NVIDIA A100 GPU, wat het geschikt maakt voor interactieve toepassingen.

4. Resultaten

Visuele Kwaliteit: Het model met pose-augmentatie (RGB + Pose) presteert significant beter op visuele metrics (FID, FVD, LPIPS) dan het model dat alleen RGB gebruikt, wat aantoont dat expliciete pose-informatie de kwaliteit van de generatie verbetert.
Gedragsovereenkomst:
- Tijdens de training evolueert het gedrag van Player 2 van "hyperactief" (veel te veel aanvallen) naar een stabiel, menselijk patroon.
- Op het eind van de training convergeert het model naar een TAA-score van ~1,8 (iets actiever dan menselijk, maar realistisch) en een ARC-score van ~1,5, wat aangeeft dat het model een gebalanceerde vechtstijl heeft aangeleerd.
- Het model leert strategische reacties zoals het uitvoeren van combo's en ruimtelijk bewustzijn, puur als reactie op de acties van Player 1.
Efficiëntie: De 4-staps gedistilleerde modellen behouden een hoge visuele kwaliteit terwijl ze een snelheidswinst van 12,5x behalen ten opzichte van het volledige model.

5. Betekenis en Toekomstperspectief

COMBAT vestigt een nieuwe basis voor het trainen van interactieve agenten binnen diffusie-gebaseerde wereldmodellen. De belangrijkste implicatie is dat intricate, reactieve multi-agent gedragingen kunnen ontstaan uit het doel van temporele consistentie, zonder dat er complexe beloningssignalen (RL) of volledige actie-labels nodig zijn.

Dit opent de deur voor:

Het creëren van realistische NPC's in games die leren van observatie.
Toepassingen in simulaties voor autonoom rijden en robotica waar agenten reageren op dynamische omgevingen.
Een nieuwe paradijm voor het leren van agent-beleid uit gedeeltelijk waargenomen data.

De auteurs maken hun dataset (Tekken 3 met pose-annotaties) en de trainingspipelines open source, wat een waardevolle resource biedt voor verder onderzoek in multi-agent AI-systemen.