COMBAT: Conditional World Models for Behavioral Agent Training

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous jouez à un jeu de combat vidéo, comme Tekken. D'habitude, l'ennemi (l'IA) est programmé avec des règles strictes : "Si le joueur tape, l'IA bloque". C'est un peu comme un robot qui suit une recette de cuisine : il fait exactement ce qu'on lui dit, sans jamais improviser.

Les chercheurs de ce papier, appelés COMBAT, ont eu une idée folle : Et si on apprenait à l'IA à se battre non pas en lui donnant des règles, mais en lui faisant regarder des milliers de matchs ?

Voici l'explication de leur travail, sans jargon technique, avec quelques images pour mieux comprendre.

1. Le Problème : L'IA qui ne comprend pas le "pourquoi"

Les modèles d'intelligence artificielle actuels sont excellents pour créer des vidéos réalistes (comme un chat qui saute). Mais ils sont nuls pour créer des ennemis intelligents. Si vous demandez à un modèle de générer une vidéo de combat, il risque de faire des mouvements bizarres, comme un bras qui traverse le corps de l'adversaire, parce qu'il ne comprend pas la logique du combat.

2. La Solution : Le "Miroir Magique" (COMBAT)

Les chercheurs ont créé un système qu'ils appellent COMBAT. Imaginez-le comme un grand miroir magique qui regarde un match de Tekken 3.

Ce qu'il voit : Il regarde l'écran. Il voit ce que fait le Joueur 1 (vous).
Ce qu'il ne voit PAS : Il ne sait pas ce que le Joueur 2 (l'ennemi) a décidé de faire. Il ne voit que le résultat final sur l'écran.
Le défi : Le miroir doit deviner ce que le Joueur 2 a fait pour que la scène ait du sens.

C'est comme si vous regardiez une vidéo muette d'un match de tennis. Vous voyez le joueur A frapper la balle. Vous ne voyez pas le joueur B. Mais si la balle revient vers vous, votre cerveau devine instantanément : "Ah, le joueur B a dû faire un retour puissant !".

COMBAT apprend à faire la même chose, mais à une vitesse folle et avec une précision mathématique.

3. Comment ça marche ? (L'Analogie du Chef Cuisinier)

Pour entraîner ce modèle, les chercheurs ont utilisé trois ingrédients principaux :

Le Livre de Recettes (Les Données) : Ils ont enregistré 1 000 parties complètes de Tekken 3. C'est leur "livre de recettes" avec 1,2 million de "photos" (images).
Le Moteur de Cerveau (Le Modèle) : Ils ont utilisé un cerveau artificiel géant (1,2 milliard de paramètres) appelé "Diffusion Transformer". C'est comme un chef cuisinier qui a lu des millions de livres de cuisine. Il ne sait pas comment cuisiner, mais il sait à quoi ressemble un plat réussi.
L'Entraînement "À l'aveugle" : C'est la partie géniale. Ils n'ont jamais dit au modèle : "Quand le joueur A tape, le joueur B doit bloquer". Ils lui ont juste montré le résultat. Le modèle a dû deviner par lui-même que pour que la vidéo soit cohérente, le joueur B devait avoir bloqué.

4. Le Résultat : Une IA qui "improvise"

Le résultat est surprenant. Comme le modèle a appris en regardant des matchs réels, le Joueur 2 (l'ennemi) développe un comportement naturel :

Il se bat de manière stratégique.
Il sait quand se défendre, quand contre-attaquer.
Il exécute des combinaisons de coups (des "combos") comme un vrai humain.

Le plus fou ? Personne ne lui a appris à faire ça. Il l'a inventé tout seul parce que c'est la seule façon de rendre la vidéo réaliste. C'est comme si un enfant apprenait à parler en écoutant ses parents, sans qu'on lui donne de cours de grammaire.

5. La Vitesse : De la Tortue à la Formule 1

Habituellement, ces modèles sont lents (ils mettent des minutes pour générer une seconde de vidéo). C'est trop lent pour un jeu vidéo.
Les chercheurs ont utilisé une technique de "distillation" (un peu comme faire un résumé très court d'un livre épais). Ils ont transformé le modèle lent en un modèle ultra-rapide capable de générer 85 images par seconde.
C'est assez rapide pour jouer en temps réel sur un ordinateur standard.

En résumé

Ce papier nous dit que nous n'avons plus besoin de programmer des règles complexes pour créer des ennemis intelligents dans les jeux vidéo. Il suffit de montrer à l'ordinateur des milliers d'exemples de comportements réels, et il découvrira par lui-même comment être un adversaire crédible, tactique et imprévisible.

C'est un peu comme si on apprenait à un acteur à jouer un rôle non pas en lui donnant un script, mais en lui faisant regarder des heures de films d'action. À la fin, il joue le rôle mieux que n'importe quel scripteur ne pourrait l'écrire.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles du monde (world models) génératifs récents, basés sur l'IA générative, excellent dans la simulation d'environnements 3D cohérents et leurs interactions avec des objets statiques. Cependant, ils souffrent d'une limitation majeure : l'incapacité à modéliser des agents dynamiques et réactifs capables d'influencer intelligemment leur environnement.

Dans des scénarios complexes (jeux de combat, conduite autonome), les composants les plus imprévisibles sont les agents réactifs (humains, PNJ). Les méthodes actuelles d'apprentissage par imitation nécessitent des étiquettes d'action complètes pour tous les agents, ce qui est souvent impossible à obtenir dans des données d'observation réelles où les décisions internes des agents adverses sont cachées (observabilité partielle).

L'objectif de COMBAT est de surmonter cette limite en apprenant le comportement d'un agent adverse (Joueur 2) de manière implicite, en se basant uniquement sur les entrées d'un agent contrôlé (Joueur 1) et sur les observations visuelles, sans aucune supervision explicite de la politique de l'adversaire.

2. Méthodologie

L'approche proposée, COMBAT (Conditional world Model for Behavioral Agent Training), est un modèle du monde en temps réel entraîné sur le jeu de combat Tekken 3.

A. Architecture du Modèle

Le système repose sur trois composants principaux :

Autoencodeur à Compression Profonde (DCAE) : Un modèle multimodal (RGB + Pose) de 340M de paramètres compressant les frames vidéo et les coordonnées de pose en un espace latent compact ( $128 \times 23 \times 11$ ). Un décodeur distillé (44M de paramètres) est utilisé pour le rendu en temps réel.
Transformateur de Diffusion (DiT) : Le cœur du modèle est un DiT de 1,2 milliard de paramètres. Il est entraîné pour prédire les frames latentes futures de manière autoregressive.
- Il est conditionné par les entrées de contrôle du Joueur 1 (vecteur one-hot sur 8 boutons) et l'état latent actuel.
- Il utilise une stratégie d'attention hybride : une fenêtre glissante locale (16 frames) pour la majorité des couches et une attention globale (128 frames) tous les 4 blocs pour capturer les dépendances à long terme.
Techniques d'Inférence Rapide : Pour atteindre des taux d'images interactifs, le modèle utilise :
- Distillation par Correspondance de Distribution (DMD) : Via le cadre CausVid, le modèle est distillé pour fonctionner en 4 étapes au lieu de centaines.
- Diffusion Forcing : Pour atténuer la dérive autoregressive.
- Caching statique clé-valeur pour réutiliser les états d'attention.

B. Formulation du Problème

Le modèle apprend une distribution conditionnelle $P_\theta(s_{t+1} | s_{t-k:t}, a^{(1)}_{t-k:t})$ , où :

$s$ représente l'état visuel (frame).
$a^{(1)}$ représente les actions observées du Joueur 1.
Les actions du Joueur 2 ( $a^{(2)}$ ) sont inobservées lors de l'entraînement.

L'innovation clé réside dans le fait que le modèle doit inférer la politique du Joueur 2 $\pi^{(2)}$ comme une propriété émergente de la nécessité de générer des interactions multi-agents temporellement cohérentes et plausibles.

3. Contributions Clés

Apprentissage de Comportements Émergents sans Supervision : COMBAT démontre qu'un agent adverse (Joueur 2) peut développer des tactiques complexes (blocage, contre-attaque, enchaînements) uniquement en étant entraîné sur des données partiellement observées, sans étiquettes d'action pour l'adversaire.
Modèle du Monde Interactif en Temps Réel : Grâce à la distillation (DMD) et à l'optimisation de l'architecture, le modèle génère des vidéos à 85 FPS sur une seule GPU NVIDIA A100, permettant une interaction fluide.
Nouvelles Métriques d'Évaluation Comportementale : L'article introduit des métriques spécifiques pour évaluer l'intelligence émergente, au-delà des métriques visuelles classiques :
- Analyse de la Distribution des Dégâts : Mesure la vraisemblance des conséquences des actions (via la distance de Wasserstein).
- Trajectoire de Santé Moyenne : Évalue le rythme global du match.
- Adhérence Totale aux Actions (TAA) et Cohérence du Ratio d'Actions (ARC) : Métriques humaines pour quantifier l'activité offensive et l'équilibre entre coups de poing et coups de pied.
Dataset Tekken 3 : Création et publication d'un dataset à grande échelle (1,2 million de frames, 1000 rounds) avec des annotations synchronisées (pose, masques de segmentation, états de santé).

4. Résultats

Les expériences ont été menées sur un jeu de données de 1,2 million de frames.

Qualité Visuelle : Le modèle enrichi de données de pose (COMBAT: Pose) surpasse significativement la version RGB seule, avec un FID de 49,7 (vs 80,9) et un FVD de 593,4 (vs 1156,6), prouvant que la structure de pose améliore la cohérence des mouvements.
Émergence Comportementale :
- Au début de l'entraînement, le modèle est "hyperactif" (TAA = 3,87), générant 4 fois plus d'actions qu'un humain.
- À mesure que l'entraînement progresse, le modèle converge vers des comportements stables et humains (TAA $\approx$ 1,8, ARC $\approx$ 1,5), apprenant à réguler sa fréquence d'attaque et à adopter un style de combat équilibré.
- Le modèle apprend à exécuter des combinaisons (combos), à faire preuve de conscience spatiale et à s'adapter aux patterns du Joueur 1.
Performance en Temps Réel : La distillation en 4 étapes permet une accélération de 12,5x par rapport au modèle complet, tout en conservant une grande fidélité visuelle et comportementale.

5. Signification et Perspectives

Signification :
Ce travail établit un nouveau paradigme pour l'entraînement d'agents interactifs. Il prouve que la modélisation du monde, lorsqu'elle est contrainte par la cohérence temporelle et conditionnée par les actions d'un seul agent, suffit à faire émerger des politiques adverses sophistiquées. Cela ouvre la voie à la création d'agents IA réalistes dans des environnements complexes sans nécessiter de données d'expert exhaustives pour chaque acteur.

Perspectives Futures :
Les auteurs identifient deux axes de recherche :

Amélioration de la Distillation : Développer des techniques de distillation qui préservent la fidélité comportementale (en intégrant des métriques comme l'ARC dans la fonction de perte), car la distillation actuelle réduit légèrement la réactivité de l'agent.
Affinement par Apprentissage par Renforcement (RL) : Utiliser le modèle du monde comme environnement pour entraîner des politiques orientées vers des objectifs (ex: maximiser le taux de victoire), créant ainsi des agents intelligents dans des environnements simulés.

En résumé, COMBAT représente une avancée majeure vers des mondes virtuels génératifs où les agents non-joueurs ne sont pas simplement scriptés, mais apprennent à interagir de manière dynamique et stratégique.