Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression

Each language version is independently generated for its own context, not a direct translation.

📸 Le Secret du "Gros Plan" : Comment réparer les visages déformés en 3D

Imaginez que vous essayez de sculpter un visage en argile (un modèle 3D) en regardant simplement une photo. C'est ce que font les ordinateurs quand ils essaient de transformer une photo de vous en un personnage 3D.

Jusqu'à présent, les artistes numériques utilisaient une règle très simple : "Tout est plat". Ils supposaient que la caméra était si loin que le nez ne semblait pas plus gros que les oreilles. C'est comme regarder un dessin animé en 2D : tout est à la même distance de vous.

Le problème ?
Quand vous prenez un selfie ou que vous portez une caméra sur votre tête (comme dans un casque de réalité virtuelle), la caméra est tout près. En vrai, quand on est tout près d'un objet, le nez semble énorme et les oreilles semblent petites. C'est la perspective.

Les anciennes méthodes de création 3D ignoraient cette règle. Résultat ? Quand elles essayaient de recréer un visage en gros plan, elles faisaient des erreurs bizarres :

Le nez devenait tout petit (comme un bouton de nez).
Le visage semblait flotter dans le vide.
Le haut de la tête semblait s'élargir étrangement (les auteurs appellent cela l'effet "cerveau qui gonfle").

💡 La Solution : Un "Régulateur de Profondeur"

Toby Chong et Ryota Nakajima (de la célèbre société d'animation Toei, connue pour Dragon Ball et One Piece) ont eu une idée brillante. Au lieu de tout réécrire, ils ont ajouté un petit bouton magique à la méthode existante.

Ils appellent ce bouton le paramètre de rétrécissement (ou shrinkage parameter $\rho$ ).

L'analogie du Zoom :
Imaginez que vous avez un vieux projecteur de diapositives (la méthode ancienne) qui projette toujours l'image à la même taille, peu importe la distance.

L'ancienne méthode : Elle dit "Le nez est petit, donc je le dessine petit".
La nouvelle méthode : Elle ajoute un petit levier. Si la caméra est très proche, le levier dit : "Attends, le nez est tout près, il doit paraître plus gros !".

Ce levier permet au modèle 3D de comprendre la différence entre "être loin" et "avoir un objectif grand angle". Il apprend à déformer le visage de la bonne manière pour qu'il corresponde à la photo, même en gros plan.

🛠️ Comment ça marche en pratique ?

C'est compatible : Ils n'ont pas cassé les vieux modèles. Ils ont juste ajouté ce petit bouton à côté. C'est comme ajouter un turbo à une voiture qui roule déjà bien.
L'entraînement : Ils ont pris des milliers de photos prises par des caméras fixées sur la tête d'acteurs (très proches du visage) pour apprendre à ce bouton quand il faut l'activer.
Le résultat :
- Sur les selfies et les images de caméras de casque : Le nez est maintenant de la bonne taille, le visage est réaliste, plus de "cerveau gonflé".
- Sur les photos normales (prises de loin) : Ça ne change presque rien, le modèle fonctionne toujours aussi bien.

🎭 Pourquoi c'est important ?

Aujourd'hui, on veut créer des personnages 3D pour les jeux vidéo, les filtres TikTok ou les films d'animation en temps réel. Souvent, ces personnages sont filmés de très près.

Sans cette nouvelle méthode, si un acteur fait une grimace de très près, son avatar 3D aura l'air d'un alien avec un nez minuscule. Avec cette méthode, l'avatar garde ses proportions naturelles, même quand il est tout près de la caméra.

En résumé :
Les chercheurs ont découvert que les ordinateurs étaient trop "paresseux" pour comprendre la perspective en gros plan. Ils ont donc ajouté un petit "aide-mémoire" mathématique qui dit : "Quand c'est tout près, le nez doit paraître plus gros !". C'est simple, mais ça change tout pour le réalisme des visages 3D.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier « Revisiting an Old Perspective: Projection for Monocular 3D Morphable Models Regression » par Toby Chong et Ryota Nakajima (TOEI Company).

1. Problématique

La régression de modèles morphables 3D (3DMM) à partir d'images monoculaires est une technique clé pour la création de contenu. La plupart des méthodes modernes basées sur l'apprentissage profond (comme EMOCA, DECA, SMIRK) utilisent une projection orthographique pour mapper le modèle 3D sur l'espace image 2D.

Avantage de la projection orthographique : Elle élimine l'ambiguïté entre la distance de l'objet ( $t_z$ ) et la longueur focale ( $f$ ), rendant l'optimisation plus stable.
Limitation majeure : Elle ignore la distorsion de perspective. Cela conduit à des artefacts visuels indésirables, notamment sur les images de gros plan (prises avec des caméras montées sur la tête - HMC - ou des selfies).
- Symptômes observés : Le nez apparaît anormalement petit par rapport à sa taille réelle, et le contour du visage (notamment la région pariétale) semble s'étirer vers l'extérieur, un phénomène que les auteurs appellent l'effet « cerveau qui s'élargit » (expanding brain effect).

2. Méthodologie

Les auteurs proposent une approche hybride qui conserve la stabilité de la projection orthographique tout en intégrant un effet de perspective contrôlable.

A. Nouveau Modèle de Caméra : Projection Pseudo-Perspective

Au lieu d'estimer directement la longueur focale $f$ et la distance $t_z$ (ce qui est instable en régression), ils introduisent un paramètre de rétrécissement (shrinkage) apprenable, noté $\rho$ .

La projection est modifiée comme suit :
$\begin{pmatrix} u \\ v \end{pmatrix} = \begin{pmatrix} S\frac {v_x}{1+\rho v_z}\\ S\frac {v_y}{1+\rho v_z} \end{pmatrix}$
Où :

$S$ est le facteur d'échelle.
$v_z$ est la coordonnée de profondeur du point 3D.
$\rho$ contrôle l'intensité de la distorsion de perspective.
- Si $\rho = 0$ , la projection est purement orthographique.
- Si $\rho > 0$ , l'effet de perspective apparaît (les objets proches semblent plus grands).
Ce paramètre $\rho$ est régressé via une simple couche linéaire ajoutée au réseau, compatible avec les architectures existantes.

B. Techniques de Fine-Tuning

Pour adapter des modèles pré-entraînés avec projection orthographique à ce nouveau modèle sans nécessiter d'images étiquetées (ground truth) :

Prior de rétrécissement par dataset ( $\rho_{prior}$ ) : Les auteurs définissent une valeur cible pour $\rho$ basée sur les caractéristiques du dataset (ex: $\rho \approx 4.0$ pour les caméras HMC, $\rho \approx 0.0$ pour les datasets standards comme CelebA). Une perte L2 est ajoutée pour guider le réseau vers cette valeur.
Masquage des zones ambiguës : Pour éviter que le réseau n'apprenne mal les contours du nez et du visage (zones les plus affectées par la distorsion), une technique de masquage est appliquée pendant l'entraînement. On masque la majorité du visage mais on réintroduit sélectivement des pixels pour guider le rendu, tout en excluant spécifiquement les zones autour du nez et du contour extérieur.

C. Dataset HMC1M

Les auteurs ont créé un nouveau dataset interne (HMC1M) contenant 1 million d'images capturées avec des caméras montées sur la tête (distance 15-30 cm), spécifiquement pour évaluer et entraîner le modèle sur des gros plans extrêmes.

3. Contributions Clés

Nouveau modèle de caméra : Une extension de la projection orthographique via un paramètre $\rho$ qui capture la distorsion de perspective tout en restant compatible avec les méthodes de régression existantes.
Techniques de fine-tuning : Une méthodologie permettant de convertir des modèles pré-entraînés (orthographiques) vers ce nouveau modèle de caméra en utilisant des images non calibrées.
Dataset HMC1M : Une collecte de données massive de gros plans faciaux pour valider l'approche.

4. Résultats

Évaluation Quantitative

Reconstruction 2D (Landmarks) : Sur le dataset HMC1M, la méthode proposée obtient la meilleure erreur de reconstruction pour les landmarks faciaux (visage et mâchoire), surpassant SMIRK (version pré-entraînée et fine-tunée).
Reconstruction 3D (NoW Dataset) : Sur le sous-ensemble "Selfie" du dataset NoW (connu pour sa distorsion de perspective), la méthode proposée réduit significativement l'erreur de reconstruction par rapport à SMIRK. Sur le sous-ensemble "Neutre", la performance est comparable.
Comparaison avec MICA : Bien que la méthode proposée soit meilleure que SMIRK sur les selfies, elle reste légèrement inférieure à MICA (qui est entraîné spécifiquement sur des scans 3D pour la géométrie neutre), car l'objectif ici est de correspondre à l'image d'entrée plutôt qu'à une géométrie neutre parfaite.

Évaluation Qualitative et Étude de Perception

Étude crowdsourcing (MTurk) : Sur 619 votes, 44,4 % des participants ont préféré la reconstruction de la méthode proposée par rapport à SMIRK pré-entraîné (23,4 %) et SMIRK fine-tuné (32,1 %).
Visualisation : Les résultats montrent une correction nette du nez (plus réaliste en gros plan) et l'élimination de l'effet « cerveau qui s'élargit ». Les mâchoires ne sont plus creuses pour compenser artificiellement la perspective.

5. Signification et Discussion

Pertinence pour les gros plans : La méthode démontre que la prise en compte de la distorsion de perspective est cruciale pour les applications impliquant des caméras portables, des casques de réalité virtuelle ou des selfies, là où les méthodes orthographiques échouent.
Stabilité vs Précision : L'approche réussit à introduire la complexité de la perspective sans sacrifier la stabilité de l'entraînement, un problème qui a souvent découragé l'utilisation de la projection perspective complète (estimation directe de $f$ et $t_z$ ) dans le passé.
Limites : Sur des images « in-the-wild » standard (prises de loin, comme CelebA), l'amélioration est minime car la distorsion de perspective y est naturellement faible. Le paramètre $\rho$ estimé pour ces datasets reste proche de zéro.

En conclusion, ce travail offre une solution pragmatique et efficace pour améliorer la fidélité géométrique des modèles 3DMM dans des scénarios de vision par ordinateur où la perspective joue un rôle dominant, sans nécessiter de réentraîner entièrement les architectures complexes de l'état de l'art.