Auteurs originaux : Dat Nguyen, Duc-Duy Nguyen

Publié 2026-05-08✓ Author reviewed ⓘ

📖 4 min de lecture☕ Lecture pause café

Auteurs originaux : Dat Nguyen, Duc-Duy Nguyen

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous essayez d'enseigner à un robot à reconnaître différents types d'oiseaux. Vous lui montrez des milliers de photos d'un « moqueur à ailes rouges » pris dans des champs ensoleillés, des forêts pluvieuses, et même certains dessins animés.

La plupart des modèles d'IA actuels apprennent en mémorisant les couleurs et les textures de l'oiseau. Ils pourraient penser : « S'il a des plumes rouges et un corps noir, c'est un moqueur à ailes rouges. » Mais c'est un piège. Si vous montrez au robot un dessin animé où l'oiseau est bleu et plat, le robot se confond car les « plumes rouges » manquent. Il échoue car il s'est appuyé sur des détails instables qui changent d'un environnement à l'autre.

L'article présente une nouvelle méthode appelée PARSE (Primitive-Aware Relational Structure for domain gEneralization) pour résoudre ce problème. Voici comment elle fonctionne, expliquée simplement :

1. L'approche « Lego » : Trouver les primitives

Au lieu de considérer l'oiseau entier comme une grosse tache de couleur, PARSE décompose l'image en petits blocs de construction réutilisables appelés primitives.

L'analogie : Imaginez un oiseau non pas comme un objet unique, mais comme un ensemble de pièces Lego : une « pièce bec », une « pièce aile », une « pièce œil » et une « pièce queue ».
Comment ça marche : L'IA apprend à repérer ces parties spécifiques par elle-même, sans qu'un humain ait besoin de dessiner des cadres autour d'elles. Elle crée une « carte thermique » montrant où se trouve le bec, où se trouve l'aile, etc. Crucialement, elle apprend à trouver la forme du bec, pas seulement sa couleur. Ainsi, même si l'oiseau du dessin animé est bleu, l'IA reconnaît toujours la « forme du bec ».

2. Le « manuel de règles » : Comprendre les relations

Trouver les pièces ne suffit pas ; il faut aussi savoir comment elles s'assemblent. Un oiseau avec un bec et des ailes est un oiseau, mais un bec flottant à côté d'une aile sans corps entre les deux est absurde.

L'analogie : Imaginez un manuel de règles strict pour construire un oiseau. Le manuel dit : « Le bec doit être au-dessus de la poitrine », « Les ailes doivent être attachées aux côtés » et « Les yeux doivent être alignés horizontalement ».
La magie : PARSE utilise des « prédicats » mathématiques (règles) pour vérifier ces relations. Elle pose des questions comme : « L'aile est-elle à gauche de la queue ? » ou « Les yeux forment-ils un triangle avec le bec ? ». Ces règles sont flexibles (douces), ce qui signifie qu'elles peuvent gérer de légères variations, mais elles sont strictes concernant la géométrie (la disposition).

3. Le « détective » : Tout mettre ensemble

Lorsque l'IA voit une nouvelle image, elle ne devine pas seulement en se basant sur la couleur. Elle agit comme un détective :

Elle trouve les pièces Lego (primitives).
Elle consulte le manuel de règles pour voir si ces pièces sont disposées selon le bon motif.
Si « le bec est au-dessus de la poitrine » et que « les ailes sont sur les côtés », l'IA est sûre qu'il s'agit d'un oiseau, même si les couleurs sont étranges ou si le style est un dessin animé.

Pourquoi est-ce mieux ?

L'article soutient que tandis que d'autres modèles d'IA tentent de mémoriser l'apparence d'un oiseau (qui change facilement), PARSE mémorise la structure d'un oiseau (qui reste la même).

Le résultat : Lorsqu'il est testé sur un ensemble de données d'oiseaux passant de photos à des dessins animés et des peintures, PARSE obtient des scores nettement meilleurs que les méthodes précédentes. Il améliore la précision de plus de 4,5 % sur un ensemble de données d'oiseaux difficile.
L'efficacité : Bien que vérifier toutes ces règles semble compliqué, le système est intelligent. Il apprend que certaines règles sont inutiles pour certains oiseaux et les « émonde » (les coupe) après l'entraînement. Cela rend le système final rapide et léger, presque aussi rapide que les modèles d'IA standards.

En résumé

PARSE enseigne à l'IA à reconnaître des choses en comprenant comment les parties s'assemblent plutôt que simplement à quoi elles ressemblent. C'est la différence entre reconnaître une voiture parce qu'elle est rouge (ce qui échoue si la voiture est bleue) et reconnaître une voiture parce qu'elle a des roues sous un corps et un pare-brise sur le dessus (ce qui fonctionne quelle que soit la couleur ou le style). Cela rend l'IA beaucoup plus robuste et fiable lorsqu'elle rencontre de nouveaux environnements jamais vus auparavant.

Résumé technique : Structure relationnelle consciente des primitives pour la généralisation de domaine (PARSE)

Énoncé du problème

La généralisation de domaine (DG) vise à entraîner des classificateurs qui maintiennent leur précision sur des domaines cibles non vus, malgré des décalages de distribution liés à l'appareil photo, à l'éclairage, au point de vue ou au style. Bien que les méthodes DG existantes se concentrent souvent sur l'amélioration des processus d'entraînement (par exemple, l'augmentation des données, l'alignement des caractéristiques ou la sélection de modèles), elles reposent largement sur des représentations de base pour capturer implicitement la composition structurelle. Les auteurs soutiennent que cette approche implicite laisse la composition structurelle sous-spécifiée, limitant ainsi les performances sur des benchmarks où les décalages de domaine impliquent des changements significatifs d'apparence tout en préservant la disposition spatiale (par exemple, la même espèce d'oiseau rendue sous forme de photo versus de dessin animé). Les méthodes actuelles échouent souvent à modéliser explicitement les relations spatiales stables entre les parties visuelles, qui sont cruciales pour une reconnaissance robuste face aux décalages de domaine.

Méthodologie : Cadre PARSE

Les auteurs proposent Primitive-Aware Relational Structure for domain gEneralization (PARSE), un cadre différentiable de bout en bout qui décompose la reconnaissance visuelle en primitives visuelles et leur composition relationnelle.

1. Primitives visuelles et descripteurs

PARSE suppose un ensemble de $K$ primitives visuelles apprises. Au lieu d'exiger des annotations manuelles, ces primitives sont apprises à partir d'une supervision au niveau de l'image. Pour chaque primitive $p_k$ , le réseau produit un descripteur dépendant de l'image $z_k(X) = \langle c_k, \sigma_k, \delta_k \rangle$ , composé de :

Localisation spatiale ( $c_k$ ) : Coordonnées 2D dérivées d'une carte de chaleur différentiable.
Score de présence ( $\sigma_k$ ) : Une valeur de confiance indiquant l'existence de la primitive.
Étendue spatiale ( $\delta_k$ ) : Une mesure de la taille de la primitive.

2. Prédicats spatiaux différentiables

Pour capturer l'invariance structurelle, PARSE emploie un vocabulaire de prédicats spatiaux souples et différentiables sur les localisations des primitives. Ces prédicats produisent un score de satisfaction dans l'intervalle $[0, 1]$ :

Unaire : $R_{has}$ (présence d'une primitive).
Binaire : Encode des relations paires telles que la position relative ( $R_{above}, R_{left}$ ), l'alignement ( $R_{h-align}, R_{v-align}$ ), la proximité ( $R_{near}$ ) et l'inclusion ( $R_{contains}$ ).
Ternaire : Modélise des indices géométriques comme les configurations triangulaires ( $R_{tri}$ ) et les angles de virage dans des chaînes ordonnées ( $R_{turn}$ ).
Quaternaire : Compare les relations entre deux paires de primitives, évaluant l'orientation relative ( $R_{orient}$ ) et la distance euclidienne relative ( $R_{eqdist}$ ).

Tous les paramètres des prédicats (par exemple, marges, tolérances, netteté) sont apprenables et partagés globalement entre les classes.

3. Architecture du réseau

Le cadre se compose de trois composants entraînables de bout en bout :

Base visuelle : Un CNN (par exemple, ResNet) extrait des caractéristiques visuelles générales.
Couche goulot d'étranglement conceptuel : Mappe les caractéristiques de la base vers $K$ cartes de chaleur de primitives. En utilisant une opération soft-argmax normalisée par température, ces cartes de chaleur sont converties en coordonnées spatiales différentiables, scores de présence et étendues.
Couche de notation structurelle :
- Énumère toutes les affectations valides des primitives au vocabulaire des prédicats.
- Calcule un vecteur de scores d'activation des prédicats $a(X)$ .
- Apprend des poids clairsemés spécifiques à la classe $\lambda_c$ sur ces activations en utilisant la normalisation sparsemax.
- Calcule le score de classe final $s_c(X)$ comme le produit scalaire des poids clairsemés et du vecteur d'activation.

Le modèle est entraîné de bout en bout en utilisant une perte d'entropie croisée sur les scores structurels, permettant aux gradients de se propager de la tâche de classification vers les détecteurs de primitives et les paramètres des prédicats.

Contributions clés

Cadre conscient de la structure : Une approche novatrice de la DG qui modélise explicitement les catégories visuelles comme des compositions de primitives apprises et de relations spatiales, plutôt que de se fier uniquement à un alignement implicite des caractéristiques.
Architecture différentiable de bout en bout : Un modèle unifié qui apprend conjointement les détecteurs de primitives, les descripteurs spatiaux et les prédicats structurels sans nécessiter d'annotations de parties manuelles.
Biais inductif structurel différentiable : L'utilisation de prédicats binaires, ternaires et quaternaires souples comme biais structurel pour la classification, distinct de leur utilisation dans le raisonnement neuro-symbolique en tant que cibles sémantiques.
Compaction structurelle clairsemée : Un mécanisme où l'entraînement pousse la plupart des poids relationnels spécifiques à la classe vers zéro, permettant l'élagage des relations inactives pour une inférence efficace.

Résultats expérimentaux

Les auteurs ont évalué PARSE sur deux benchmarks :

CUB-DG (Généralisation de domaine compositionnelle) :
- PARSE a atteint une précision moyenne de 65,6 %, surpassant l'état de l'art précédent (ERM++) de 4,5 points de pourcentage.
- Il a obtenu la meilleure précision sur trois des quatre domaines cibles (Photo, Dessin animé, Art).
- Des études d'ablation ont confirmé que l'ajout de prédicats relationnels (binaires, ternaires, quaternaires) améliorait systématiquement les performances par rapport à une base de référence n'utilisant que des descripteurs de primitives.
DomainBed :
- PARSE a atteint une précision moyenne de 66,7 % sur cinq jeux de données.
- Il a surpassé MIRO et GVRT et est resté compétitif avec SWAD (à moins de 0,2 point).
- Il a obtenu le meilleur résultat sur le jeu de données TerraIncognita, améliorant le précédent meilleur résultat de 3,6 points.
Efficacité :
- Bien que la couche structurelle introduise des paramètres, la surcharge computationnelle est minime par rapport à la base (dominée par le passage avant de ResNet-50).
- L'élagage post-entraînement via sparsemax réduit les paramètres structurels de plus de 99 % sans dégrader les performances.

Importance et affirmations

L'article affirme que PARSE démontre la valeur du biais inductif structurel explicite dans la généralisation de domaine. En distribuant les preuves entre l'apparence locale des primitives et la structure compositionnelle, le modèle devient plus robuste aux décalages d'apparence (par exemple, texture, style) tout en exploitant une organisation spatiale stable (par exemple, disposition des parties).

Les auteurs soulignent que leur approche complète les méthodes existantes centrées sur les caractéristiques. Ils notent que si la méthode est plus efficace lorsque les primitives peuvent être localisées de manière fiable et que la structure spatiale reste informative, le cadre comble avec succès le fossé entre l'apprentissage profond et le raisonnement structurel sans sacrifier l'entraînabilité de bout en bout. Ce travail suggère que les améliorations futures en DG pourraient résider dans de meilleures représentations de primitives et des vocabulaires de prédicats adaptatifs.

Domain Generalization through Spatial Relation Induction over Visual Primitives