MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Grand Jeu du "Miroir Magique" : Comment on teste ce que les ordinateurs voient vraiment

Imaginez que vous avez un ami très intelligent, mais qui ne parle pas votre langue. Il regarde des photos de dragons, de chats ou de boules de métal brillant. Vous voulez savoir : est-ce qu'il comprend vraiment la forme de l'objet, ou est-ce qu'il se contente de regarder la texture de sa peau ?

C'est exactement le problème que les chercheurs Benjamin Beilharz et Thomas Wallis veulent résoudre avec leur nouvelle méthode appelée MRD.

1. Le Problème : L'illusion des 2D

Les intelligences artificielles (les modèles de vision par ordinateur) sont entraînées avec des millions de photos en 2D. Elles sont devenues excellentes pour reconnaître des objets. Mais on ne sait pas vraiment comment elles le font.

Est-ce qu'elles voient un dragon parce qu'elles reconnaissent sa forme 3D ?
Ou est-ce qu'elles disent "C'est un dragon" juste parce qu'elles reconnaissent la couleur de ses écailles ?

C'est comme si un enfant apprenait à reconnaître un chien en voyant uniquement des photos de chiens noirs. Si vous lui montrez un chien blanc, il pourrait dire "Ce n'est pas un chien".

2. La Solution : Le "Miroir Magique" (MRD)

Les chercheurs ont inventé un outil appelé MRD (Metamers Rendered Differentially). Pour faire simple, c'est un miroir magique qui fonctionne à l'envers.

Voici comment cela fonctionne, étape par étape, avec une analogie :

L'Objectif : Vous avez une photo d'un objet (par exemple, un dragon en bronze). L'IA dit : "C'est un dragon".
Le Défi : Vous voulez créer un tout autre objet (par exemple, une boule de métal lisse) qui, une fois photographié, donne exactement la même réaction à l'IA.
La Magie : Si l'IA ne peut pas faire la différence entre le vrai dragon et votre boule de métal, c'est qu'elle ne comprend pas la forme du dragon ! Elle se fie uniquement à la couleur ou à la brillance.

C'est ce qu'on appelle un méta-mère : deux objets physiquement très différents qui semblent identiques aux yeux de l'IA.

3. Comment ça marche ? (Le Sculpteur et le Photographe)

Imaginez un sculpteur (l'ordinateur) et un photographe (l'IA).

Le photographe regarde une photo d'un dragon et dit : "J'aime cette image !".
Le sculpteur commence avec une boule de boue informe.
Il utilise un outil spécial (le rendu différentiable) qui lui permet de modifier la boue en temps réel en regardant la réaction du photographe.
Le sculpteur ajuste la forme, la matière, la lumière... jusqu'à ce que le photographe dise : "Wow, c'est exactement la même sensation que pour le dragon !"
À la fin, le sculpteur regarde sa création : c'est une boule de boue bizarre, mais le photographe (l'IA) pense que c'est un dragon.

Conclusion du test : Si l'IA accepte une boule de boue comme un dragon, c'est qu'elle est "aveugle" à la vraie forme 3D.

4. Ce qu'ils ont découvert

Les chercheurs ont testé cette méthode sur plusieurs types d'IA (comme ResNet, CLIP, etc.) avec deux types d'objets : la forme (la géométrie) et la matière (la texture, le métal, le plastique).

Résultat sur la matière (Texture) : C'était facile ! L'IA a souvent accepté des objets très différents tant que la couleur et la brillance étaient bonnes. C'est comme si l'IA disait : "Peu importe la forme, tant que ça brille comme du métal, c'est du métal."
Résultat sur la forme (Géométrie) : C'était beaucoup plus dur. L'IA a souvent refusé de reconnaître des formes bizarres comme des dragons. Elle semble avoir besoin de la bonne forme pour dire "C'est un dragon".
- Cependant, certaines IA (comme celles entraînées sur des images stylisées) ont parfois accepté des "boules de boue" comme des dragons, ce qui prouve qu'elles ne comprennent pas vraiment la 3D.

5. Pourquoi c'est important ?

Cette méthode est comme un test de vérité pour les ordinateurs.

Elle nous aide à comprendre si nos IA sont de véritables "observateurs" du monde 3D, ou si ce sont juste des "tricheurs" qui regardent les textures.
Cela nous permet d'améliorer les voitures autonomes (qui doivent comprendre la forme des piétons, pas juste leur couleur) ou les robots chirurgiens.

En résumé

Les chercheurs ont créé un jeu de dupes où ils essaient de tromper les ordinateurs avec des objets physiques différents mais visuellement identiques pour eux.

Si l'ordinateur se fait avoir : il ne comprend pas la forme 3D.
Si l'ordinateur résiste : il a une vraie compréhension de la géométrie.

C'est une façon brillante de "lire dans les pensées" des machines en utilisant la physique de la lumière et de la matière, plutôt que de simplement regarder des pixels.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Bien que les modèles d'apprentissage profond aient atteint des performances exceptionnelles dans de nombreux benchmarks de vision par ordinateur, leur fonctionnement interne reste souvent une "boîte noire". Il est difficile d'expliquer comment et pourquoi ces modèles prennent leurs décisions.

Le défi : Les modèles de vision sont généralement entraînés sur des images 2D, mais on suppose qu'ils développent une représentation implicite de la scène 3D sous-jacente (profondeur, occlusion, forme, matériau). Cependant, les méthodes existantes pour évaluer cette compréhension (comme la visualisation de caractéristiques ou les attaques adverses basées sur les pixels) manquent souvent de fondement physique. Elles génèrent des images qui peuvent sembler étranges ou qui ne correspondent pas à des descriptions de scènes physiques réalistes.
L'objectif : Développer une méthode capable de sonder la compréhension implicite des modèles de vision concernant les propriétés génératives des scènes 3D (géométrie et matériaux) en trouvant des métamères de modèle. Un métamère de modèle est une scène physiquement différente qui produit exactement la même activation latente (représentation interne) qu'une scène de référence pour un modèle donné.

2. Méthodologie : MRD (Metamers Rendered Differently)

Les auteurs proposent MRD, une approche qui combine le rendu différentiable basé sur la physique (PBDR) avec l'objectif de métamérisme.

A. Principes Fondamentaux

Au lieu d'optimiser directement les pixels d'une image (comme dans les méthodes de synthèse classiques), MRD optimise les paramètres de la scène physique ( $\pi$ ) tels que :

La géométrie (forme des objets, maillages).
Les matériaux (fonction de distribution bidirectionnelle de réflexion, BRDF/BSDF).
L'éclairage et la position de la caméra.

Le processus fonctionne comme suit :

Initialisation : On part d'une scène de référence avec des paramètres connus ( $\pi$ ) et on génère des images de vérité terrain ( $I$ ).
Optimisation : On initialise une nouvelle scène avec des paramètres différents ( $\pi'$ ). On utilise un moteur de rendu différentiable (Mitsuba 3) pour générer des images à partir de ces paramètres.
Boucle de rétropropagation : On calcule la perte entre les images rendues et les représentations latentes de la scène de référence (via le modèle de vision cible). On calcule le gradient par rapport aux paramètres de la scène ( $\partial l / \partial \pi$ ) et on met à jour la géométrie ou les matériaux pour minimiser cette perte.
Critère de succès : Si la scène optimisée produit une similarité latente égale ou supérieure à celle obtenue lors d'une reconstruction de vérité terrain (baseline), elle est considérée comme un métamère.

B. Outils Techniques

Moteur de rendu : Utilisation de Mitsuba 3, un rendu différentiable capable de gérer le transport de la lumière physique (path tracing) et de différencier les intégrales de Monte Carlo, y compris les discontinuités de visibilité (bords d'objets, ombres).
Modèles testés : Six architectures différentes ont été sondées :
- Réseaux CNN classiques : ResNet-50 (ImageNet) et ResNet-50-SIN (entraîné sur ImageNet stylisé pour favoriser la forme).
- Métriques de similarité perceptuelle : LPIPS (basé sur VGG) et VGG standard.
- Modèles de vision modernes (Transformers) : CLIP et DINOv2.
Scènes : Des scènes synthétiques avec des objets flottants (pour la forme) ou posés sur un sol (pour les matériaux), éclairés par des cartes d'environnement (HDR).

3. Contributions Clés

Nouvelle méthode d'interprétabilité : MRD permet de relier les activations des réseaux de neurones à des propriétés environnementales physiques concrètes (unités physiques réelles) plutôt qu'à des motifs de pixels abstraits.
Sondage de l'invariance et des classes d'équivalence : La méthode permet de déterminer quelles propriétés physiques (forme vs matériau) un modèle est capable de distinguer ou, au contraire, pour lesquelles il est invariant (trouvant des scènes très différentes mais physiquement équivalentes dans son espace latent).
Évaluation empirique : Application de cette méthode à une large gamme de modèles contemporains pour évaluer leur capacité à reconstruire la géométrie et les matériaux à partir de leurs représentations latentes.

4. Résultats Principaux

Les expériences ont été menées sur deux tâches : la reconstruction de matériaux (BRDF) et la reconstruction de formes (géométrie).

A. Reconstruction de Matériaux

Performance : La reconstruction des matériaux a été globalement très réussie. De nombreux modèles (notamment LPIPS, VGG et ResNet-SIN) ont atteint des scores de similarité latente comparables à la reconstruction de vérité terrain.
Observation : Les matériaux métalliques et spéculaires (ex: brossé, aurore) sont plus faciles à reconstruire que les matériaux diffus ou translucides, car ils génèrent des indices d'image globaux plus forts (reflets, anisotropie).
Résultat : 14 cas de métamères confirmés sur 24 essais pour les matériaux.

B. Reconstruction de Forme (Géométrie)

Performance : Plus difficile que pour les matériaux. Seuls 15 cas sur 71 ont atteint le seuil de métamère strict.
Comportement des modèles :
- LPIPS et VGG : Ont souvent réussi à reconstruire des formes fidèles.
- ResNet et CLIP : Ont montré des résultats mitigés. Bien que les scores de similarité latente soient parfois très élevés (proches du seuil), les reconstructions visuelles peuvent être des "blobs" amorphes ou des formes étranges qui ne ressemblent pas à l'objet original pour un humain, mais qui sont indiscernables pour le modèle.
- Interprétation : Cela suggère que des modèles comme ResNet ont des classes d'équivalence très larges pour la forme 3D : pour le modèle, une forme "pointue" peut être équivalente à un "dragon", même si visuellement elles diffèrent.
Analyse RSA (Representational Similarity Analysis) : L'analyse a montré que certains modèles préservent la structure géométrique de l'espace latent (relations entre les vues) même s'ils ne reconstruisent pas le point exact dans l'espace latent (alignement ponctuel).

C. Comparaison Matériaux vs Formes

La reconstruction des matériaux est systématiquement plus performante et stable que celle des formes. Les auteurs attribuent cela à :

La dimensionnalité : L'espace des matériaux est plus faible et plus structuré que l'espace des formes 3D.
La nature des gradients : Les modifications de matériaux affectent l'image globalement (gradients denses), tandis que les modifications de forme créent des discontinuités et des gradients épars.
Les biais d'apprentissage : Les réseaux modernes semblent encoder les statistiques de texture et d'éclairage plus explicitement que l'information géométrique pure.

5. Signification et Implications

Compréhension des modèles : MRD révèle que les modèles de vision actuels ne possèdent pas nécessairement une représentation 3D "humaine" ou robuste de la forme. Ils peuvent être très sensibles aux textures et aux éclairages tout en étant insensibles à des changements géométriques majeurs, tant que l'activation latente reste similaire.
Outil pour la science cognitive : En trouvant des métamères, les chercheurs peuvent identifier les invariants appris par les modèles et les comparer à la perception humaine. Si un modèle trouve des métamères que l'humain rejette (ou vice-versa), cela éclaire les différences de traitement visuel.
Limites et Avenir : La méthode est actuellement limitée par la complexité computationnelle (nécessite des GPU puissants) et la difficulté à gérer les scènes complexes avec des éclairages multiples. Les travaux futurs visent à étendre cela à d'autres paramètres de scène (caméra, éclairage) et à des modèles plus grands.

En conclusion, MRD constitue une avancée majeure pour l'interprétabilité des modèles de vision, en ancrant l'analyse dans la physique du monde réel plutôt que dans l'espace des pixels, permettant ainsi de cartographier précisément ce que les modèles "voient" et comprennent de la structure 3D.