COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : La Terre n'est pas un dessin animé

Imaginez que vous essayez de deviner à quoi ressemble une ville uniquement en regardant sa carte topographique (les montagnes, les rivières) et une liste de ce qui s'y trouve (forêts, maisons, champs).

Si vous demandiez à un dessinateur classique (un modèle d'intelligence artificielle "déterministe") de faire ce dessin, il vous donnerait une seule image. Il choisirait la version la plus "moyenne" : un ciel gris, un soleil à midi, des arbres verts standards.

Le problème ? La réalité est bien plus complexe.

La même forêt peut être vue sous un soleil éclatant, sous la pluie, ou au crépuscule.
Le même champ peut être vert en été et jaune en automne.
Le même relief peut être vu par un satellite optique (caméra) ou un radar (qui voit à travers les nuages).

Les modèles actuels ont tendance à "lisser" la réalité. Ils perdent la magie de la variabilité. Ils disent : "Voici la réponse moyenne", alors que la nature dit : "Voici une infinité de possibilités réelles".

🎨 La Solution : COP-GEN, le "Peintre Probabiliste"

Les auteurs ont créé COP-GEN. Imaginez-le non pas comme un dessinateur qui fait un seul croquis, mais comme un chef cuisinier créatif ou un peintre impressionniste.

Si vous lui donnez la même carte (le relief) et la même liste de produits (la végétation), il ne vous donnera pas un seul plat. Il vous dira : "Tiens, voici 10 versions différentes de ce paysage. L'une est ensoleillée, l'autre brumeuse, une troisième avec des nuages. Toutes sont physiquement possibles et réalistes."

C'est ce qu'on appelle un modèle stochastique : il comprend que l'avenir (ou l'image manquante) n'est pas fixe, mais une distribution de possibilités.

🧩 Comment ça marche ? (L'analogie du Lego)

Pour gérer toutes ces données (images optiques, radars, altitude, cartes de végétation, dates, coordonnées GPS), COP-GEN utilise une architecture ingénieuse qu'on pourrait comparer à un système de Lego universel.

Des briques de tailles différentes : Les satellites ne prennent pas des photos de la même taille. Certains voient 10 mètres de détail, d'autres 60 mètres. Au lieu de forcer tout le monde à se mettre au même format (ce qui déforme l'image), COP-GEN transforme chaque type de donnée en une "brique" (un token) adaptée à sa taille naturelle.
Un cerveau unique (Le Transformer) : Toutes ces briques sont jetées dans un seul grand bol (le modèle Transformer). Le modèle apprend comment elles s'assemblent. Il comprend que si vous avez une "brique montagne" et une "brique neige", il y a de fortes chances d'avoir une "brique ciel bleu" ou "brique nuage bas".
Le jeu du "Qui manque ?" : L'entraînement consiste à cacher une partie des briques et demander au modèle de les deviner.
- Exemple : On cache l'image radar. Le modèle doit la deviner en regardant l'image optique et la carte.
- Exemple : On cache la date. Le modèle doit deviner si c'est l'été ou l'hiver en regardant la végétation.
- Le plus fort : Il peut faire l'inverse ! On lui donne le radar, il imagine l'optique. On lui donne la date et la carte, il imagine le relief. C'est ce qu'on appelle la génération "n'importe quoi vers n'importe quoi".

🚀 Pourquoi c'est révolutionnaire ?

Dans le monde de l'observation de la Terre (Copernicus, satellites Sentinel), on a souvent des données incomplètes.

"Il y a des nuages, je ne vois pas le sol." -> COP-GEN peut imaginer ce qu'il y a dessous en se basant sur le radar.
"Je n'ai que la carte des forêts, je veux voir à quoi ça ressemble." -> COP-GEN génère une image réaliste, avec plusieurs variantes possibles.

Contrairement aux anciens modèles qui produisaient des images floues (la moyenne de tout), COP-GEN produit des images nettes et variées. Il capture l'incertitude.

📏 Comment on le juge ? (Le test du "Meilleur Coup")

C'est ici que ça devient drôle. Comment on note un modèle qui fait 10 images différentes pour une même question ?
Si on compare une seule image générée à la photo réelle, le modèle perd souvent (car il a peut-être choisi un ciel nuageux alors qu'il y avait du soleil).

Les auteurs ont donc inventé une nouvelle règle du jeu : Le test de l'Oracle.
Imaginez que le modèle lance 36 dés (génère 36 images). On regarde les 36 résultats. Si l'une d'entre elles ressemble parfaitement à la réalité, on dit que le modèle a réussi.

Résultat : COP-GEN gagne haut la main. Il prouve qu'il a appris la "vraie" distribution de la Terre. Il sait que la réalité est vaste, et il couvre toute cette étendue.

🌟 En résumé

COP-GEN, c'est comme donner à une IA une boîte à outils complète (relief, végétation, radar, optique) et lui dire : "Peins-moi le monde tel qu'il est vraiment, avec toutes ses variations, ses nuages et ses saisons, sans jamais te tromper sur la physique."

C'est un pas de géant pour comprendre notre planète, car au lieu de nous donner une seule version figée de la réalité, il nous montre toutes les versions possibles, nous aidant à mieux prévoir les catastrophes, gérer les ressources et comprendre les changements climatiques.

C'est la différence entre un GPS qui vous dit "Tournez à gauche" (déterministe) et un guide local qui vous dit : "Si vous tournez à gauche, vous verrez peut-être un marché, ou peut-être une plage, selon l'heure et la météo, mais les deux sont possibles !" 🌊☀️🌧️

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les applications d'observation de la Terre (EO) reposent de plus en plus sur des données multi-capteurs (optique, radar, élévation, couverture terrestre). Cependant, les relations entre ces modalités sont fondamentalement non injectives : un même ensemble d'informations conditionnelles (par exemple, un modèle numérique de terrain et une carte d'occupation des sols) peut correspondre à plusieurs réalités physiques plausibles (différentes conditions atmosphériques, éclairages, textures radar, etc.).

Les modèles déterministes actuels tendent à « s'effondrer » vers une moyenne conditionnelle, produisant des prédictions floues et manquant de diversité, ce qui est inadéquat pour des tâches comme la complétion de données ou la traduction inter-capteurs. De plus, les architectures existantes (souvent basées sur des UNet) peinent à gérer des données hétérogènes à leurs résolutions natives sans un échantillonnage agressif, et ne modélisent pas explicitement l'incertitude inhérente aux systèmes physiques.

2. Méthodologie : COP-GEN

COP-GEN est un transformateur de diffusion latente multimodal conçu pour modéliser la distribution conjointe de données hétérogènes de l'observation Copernicus.

Architecture et Conception

Encodage Latent par Modalité : Chaque modalité (Sentinel-2 L1C/L2A, Sentinel-1 RTC, DEM, LULC, géolocalisation, timestamp) est d'abord encodée dans un espace latent compact à l'aide de VAE (Variational Autoencoders) spécifiques à chaque modalité. Cela permet de traiter les données à leurs résolutions spatiales natives (ex: 10m, 20m, 60m) sans perte d'information par rééchantillonnage.
Tokenisation Unifiée : Les représentations latentes sont découpées en patches (tokens). Les métadonnées scalaires (coordonnées, temps) sont également tokenisées. Chaque modalité reçoit son propre embedding de pas de temps de diffusion ( $t^{(i)}$ ).
Backbone Transformateur : Un transformateur unique (U-ViT) traite la séquence unifiée de tous les tokens. Grâce à l'attention croisée, le modèle apprend les dépendances à longue portée et les relations inter-modales.
Contrôle des Pas de Temps : Chaque modalité possède un pas de temps de diffusion indépendant. Cela permet de figer certaines modalités (conditionnement à $t=0$ ) tout en générant d'autres à partir du bruit, permettant une génération conditionnelle flexible.

Entraînement

Le modèle est entraîné sur un jeu de données global de plus d'un million d'échantillons (MajorTOM).
L'objectif est la prédiction de bruit ( $\epsilon$ -prediction) sur l'ensemble des modalités simultanément.
L'architecture permet une génération « any-to-any » : n'importe quelle sous-ensemble de modalités peut servir d'entrée pour générer n'importe quelle autre modalité manquante, sans réentraînement spécifique.

3. Contributions Clés

Modélisation Stochastique par Conception : Contrairement aux approches déterministes, COP-GEN capture la nature « un-à-plusieurs » des mappings EO, générant plusieurs réalisations physiquement plausibles pour une même condition d'entrée.
Traitement Natif des Résolutions : L'utilisation de VAEs spécifiques et de tokenisation permet de préserver les résolutions natives des capteurs (ex: bandes spectrales à 10m, 20m, 60m), évitant les artefacts de rééchantillonnage.
Génération Conditionnelle Flexible (Zero-Shot) : Le modèle permet la traduction de modalités, le remplissage de bandes spectrales (band infilling) et la complétion de données manquantes sans nécessiter de têtes de tâches spécifiques.
Nouveau Protocole d'Évaluation : Les auteurs soulignent l'inadéquation des métriques ponctuelles (MAE, PSNR) pour les modèles stochastiques. Ils proposent une évaluation par capacité de pointe (Oracle), où l'on sélectionne la meilleure génération parmi plusieurs échantillons pour évaluer la fidélité maximale du modèle, ainsi que des analyses de la diversité de la distribution.

4. Résultats

Les expériences ont été menées sur un jeu de données global couvrant diverses zones climatiques, comparant COP-GEN à l'état de l'art (notamment TerraMind, un modèle déterministe multimodal).

Fidélité de Pointe (Peak Fidelity) : COP-GEN surpasse systématiquement TerraMind en termes de MAE et PSNR pour la reconstruction de l'imagerie optique (S2L1C/S2L2A), du radar (S1RTC) et du DEM, lorsqu'on sélectionne la meilleure réalisation parmi plusieurs échantillons.
Diversité et Plausibilité Physique :
- Variabilité de Sortie : Pour une même entrée (DEM + LULC), COP-GEN génère des scènes variées (différents éclairages, nuages, textures) tout en respectant la topographie, là où les modèles déterministes produisent des images quasi-identiques.
- Réduction de l'Incertitude : L'analyse montre que la variance de la distribution de sortie diminue systématiquement à mesure que l'information de conditionnement augmente (ajout de modalités), reflétant une réduction physique de l'ambiguïté.
- Inférence Géospatiale : En conditionnant uniquement sur le DEM et la LULC, COP-GEN prédit une distribution de coordonnées géographiques plausible et diversifiée (couvrant plusieurs continents), tandis que les modèles déterministes tendent à s'effondrer sur quelques points spécifiques (surapprentissage).
Remplissage de Bandes (Band Infilling) : Le modèle réussit à reconstruire des bandes spectrales manquantes et d'autres modalités (DEM, nuages) à partir d'un sous-ensemble de bandes visibles, démontrant une compréhension profonde des corrélations spectrales et inter-capteurs.

5. Signification et Perspectives

COP-GEN représente une avancée majeure pour l'observation de la Terre en passant d'une approche de reconstruction déterministe à une modélisation générative probabiliste.

Alignement Physique : En reconnaissant l'incertitude inhérente aux données satellitaires (conditions météo, angle d'acquisition), le modèle offre un cadre plus réaliste pour des applications comme la simulation de scénarios, la complétion de données manquantes et la prévision.
Évaluation : Le papier invite la communauté à abandonner les métriques de référence unique pour adopter des protocoles évaluant la capacité du modèle à couvrir le support de la distribution de données réelles.
Limites et Futur : Les auteurs notent que l'influence des métadonnées (latitude/longitude, temps) sur la génération reste limitée, probablement due à un déséquilibre dans la fonction de perte. Les travaux futurs viseront à modéliser explicitement les séquences temporelles pour simuler la dynamique des systèmes terrestres et à développer des métriques d'évaluation adaptées aux distributions.

En résumé, COP-GEN établit un nouveau standard pour les modèles de fondation génératifs en EO, capable de gérer la complexité, l'hétérogénéité et l'incertitude des données satellitaires à l'échelle mondiale.