CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation

Ce papier présente CrossEarth-SAR, le premier modèle fondationnel d'observation de la Terre à base de radar à synthèse d'ouverture (SAR) à l'échelle du milliard de paramètres, qui utilise une architecture guidée par la physique pour surmonter les décalages de domaine et atteindre des performances de segmentation sémantique généralisables inédites.

Ziqi Ye, Ziyang Gong, Ning Liao, Xiaoxing Hu, Di Wang, Hongruixuan Chen, Chen Huang, Yiguo He, Yuru Jia, Xiaoxing Wang, Haipeng Wang, Xue Yang, Junchi Yan

Publié 2026-03-13
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌍 CrossEarth-SAR : Le Super-Héros de la "Vision" Radar

Imaginez que vous essayez de reconnaître des objets dans le brouillard, la nuit, sous la pluie, avec des lunettes de soleil différentes à chaque fois. C'est exactement ce que font les satellites SAR (Radar à Ouverture Synthétique). Contrairement aux caméras classiques qui ont besoin de lumière du soleil, le SAR utilise des ondes radar pour voir la Terre, 24h/24 et par tous les temps. C'est un outil incroyable pour surveiller les catastrophes naturelles ou les villes.

Mais il y a un gros problème : les images radar sont très difficiles à comprendre pour les ordinateurs.

🧩 Le Problème : Un Puzzle Brisé

Dans le monde de la vision par ordinateur, on a l'habitude d'entraîner un modèle (un "cerveau" artificiel) sur des photos de chats et de chiens. Une fois entraîné, il reconnaît un chat partout.

Avec le radar, c'est différent. Une image radar dépend de trop de facteurs :

  1. Le capteur (comme si on changeait de caméra tous les 5 minutes).
  2. L'angle de vue (comme si on regardait un bâtiment de face, puis de côté).
  3. La météo et le sol (l'humidité change tout).

Si vous entraînez un modèle sur des images d'une ville en Chine prises par un satellite spécifique, il sera complètement perdu si on lui montre une image d'une ville au Brésil prise par un autre satellite. C'est ce qu'on appelle le "décalage de domaine". Le modèle ne généralise pas.

🚀 La Solution : CrossEarth-SAR

Les auteurs de cet article ont créé CrossEarth-SAR, le premier "modèle fondamental" (une sorte de super-cerveau) dédié au radar, avec une taille colossale (des milliards de paramètres).

Voici comment ils ont fait, avec des analogies simples :

1. Une Cuisine avec des Chefs Spécialisés (L'architecture MoE)
Au lieu d'avoir un seul chef cuisinier qui essaie de tout faire (poulet, poisson, dessert), CrossEarth-SAR est comme un restaurant avec des centaines de chefs experts.

  • Il y a un chef expert en "bruit de pluie".
  • Un autre expert en "angles de vue bizarres".
  • Un autre en "textures de sol".
    Le système est intelligent : il regarde l'image radar et dit : "Hé, celle-ci ressemble à un sol humide vu sous un angle étrange, appelons l'expert n°42 !". Cela permet au modèle de s'adapter à n'importe quelle situation sans devenir trop lent.

2. Le Guide Physique (Les Descripteurs Physiques)
C'est la partie la plus ingénieuse. Les ordinateurs ont du mal à comprendre pourquoi une image radar a l'air comme ça. Les auteurs ont donné au modèle un guide physique.
Imaginez que vous apprenez à un enfant à reconnaître des voitures. Au lieu de juste lui montrer des photos, vous lui donnez un manuel qui dit : "Si la voiture est mouillée, elle brille plus. Si elle est sur une pente, elle semble plus courte."
CrossEarth-SAR calcule automatiquement ces "règles physiques" (la rugosité du sol, la force du bruit, l'angle) et les donne au modèle en même temps que l'image. Cela aide le modèle à comprendre la logique derrière l'image, pas juste à mémoriser des formes.

3. La Bibliothèque Géante (CrossEarth-SAR-200K)
Pour entraîner ce super-cerveau, il faut des millions d'exemples. Les chercheurs ont créé une base de données géante de 200 000 images provenant de partout dans le monde (villes, déserts, forêts, océans).
Comme il n'y a pas assez d'images étiquetées par des humains, ils ont utilisé d'autres intelligences artificielles pour créer des "étiquettes probables" (comme des devinettes très précises) et ont ainsi pu apprendre à partir de données du monde entier.

4. Le Grand Test (Le Benchmark)
Pour prouver que leur modèle est le meilleur, ils ont créé un examen final avec 22 épreuves différentes.

  • Exemple d'épreuve : "Tu as appris sur des images de Corée, maintenant reconnais des objets en Chine."
  • Exemple d'épreuve : "Tu as appris avec un radar vertical, maintenant reconnais avec un radar horizontal."

Le résultat ? CrossEarth-SAR a gagné 20 épreuves sur 22, battant tous les autres modèles de loin (parfois de plus de 10 %). Il est capable de passer d'un contexte à l'autre sans perdre ses moyens.

💡 Pourquoi c'est important ?

Aujourd'hui, si un satellite repère une inondation soudaine en Afrique, mais que le modèle a été entraîné sur des données d'Europe, il risque de ne rien voir ou de faire des erreurs.
Avec CrossEarth-SAR, on a enfin un modèle capable de comprendre n'importe quelle image radar, n'importe où, n'importe quand. C'est un pas de géant pour sauver des vies lors de catastrophes, surveiller l'environnement et gérer nos villes, peu importe les conditions météo ou le type de satellite utilisé.

En résumé : C'est comme donner à un détective une carte du monde complète, un manuel de physique et une équipe d'experts spécialisés, pour qu'il puisse résoudre n'importe quel mystère, même dans le brouillard le plus épais.