MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez transformer une abeille en un avion de chasse, ou un fauteuil en une voiture, le tout en une séquence fluide et magique, comme dans un film d'animation. C'est ce qu'on appelle le morphing 3D.

Jusqu'à présent, faire cela en 3D était un cauchemar pour les ordinateurs. C'était comme essayer de mélanger de l'eau et de l'huile : les formes se brisaient, les textures devenaient floues, et le résultat ressemblait souvent à un blob informe plutôt qu'à une transformation élégante.

Voici comment MorphAny3D change la donne, expliqué simplement :

1. Le Problème : Le "Mélange à l'aveugle"

Les anciennes méthodes essayaient de trouver des points correspondants entre l'objet de départ et l'objet d'arrivée (comme coller des étiquettes sur chaque aile d'abeille pour les relier aux ailes d'avion).

Le problème : Si vous essayez de transformer un chat en voiture, il n'y a pas de "points communs" évidents. Les anciennes méthodes se perdaient, créant des déformations bizarres où les roues apparaissaient sur la tête du chat.

2. La Solution : La "Boîte à Outils Magique" (SLAT)

Les auteurs utilisent une technologie appelée SLAT (Latent Structuré). Imaginez que SLAT n'est pas juste une image 3D, mais une boîte à outils intelligente qui contient les instructions de construction de l'objet (la forme, la texture, les détails) dans un langage que l'ordinateur comprend parfaitement.

Au lieu de mélanger les objets eux-mêmes, MorphAny3D mélange les instructions contenues dans cette boîte à outils.

3. Les Trois Astuces de Magie

Pour que la transformation soit parfaite, ils ont inventé trois techniques clés :

A. Le "Pont de Traduction" (Morphing Cross-Attention)
- L'analogie : Imaginez que vous essayez de traduire un livre. Si vous mélangez mot à mot les phrases du livre A et du livre B, vous obtenez du charabia.
- Ce que fait MorphAny3D : Au lieu de mélanger les mots en vrac, il écoute d'abord le livre A, puis le livre B, et crée une nouvelle phrase qui garde le sens des deux. Cela évite que l'ordinateur se trompe de partie (par exemple, mettre une roue sur le nez de l'animal). Il garde la structure logique intacte.
B. Le "Fil d'Ariane Temporel" (Temporal-Fused Self-Attention)
- L'analogie : Si vous filmez une transformation image par image sans regarder la précédente, le résultat ressemblera à un film qui tremble et saute partout (comme un vieux GIF).
- Ce que fait MorphAny3D : Il regarde la frame précédente avant de dessiner la suivante. C'est comme si l'artiste regardait son dernier coup de pinceau pour savoir où poser le prochain. Cela rend le mouvement fluide et naturel, sans saccades.
C. Le "Correcteur de Tournevis" (Orientation Correction)
- L'analogie : Parfois, pendant la transformation, l'objet décide soudainement de faire un demi-tour de 180 degrés, comme un touriste qui se perd et fait demi-tour brusquement. C'est très désagréable à voir.
- Ce que fait MorphAny3D : Il surveille la position de l'objet. S'il détecte que l'objet va faire un saut bizarre, il le remet doucement dans le bon sens, comme un guide qui corrige la trajectoire d'un ballon pour qu'il reste sur sa courbe.

4. Le Résultat Final

Grâce à ces astuces, MorphAny3D peut transformer n'importe quel objet 3D en n'importe quel autre (même des catégories totalement différentes comme un insecte en un véhicule) sans avoir besoin d'apprendre de nouvelles choses (c'est "sans entraînement").

En résumé :
C'est comme si vous aviez un chef d'orchestre génial qui ne se contente pas de faire jouer deux musiques ensemble (ce qui ferait du bruit), mais qui compose une nouvelle mélodie fluide où chaque instrument (la forme, la texture, le mouvement) passe doucement de l'un à l'autre.

Le résultat ? Des vidéos de transformation qui sont belles, logiques et fluides, même pour des objets qui n'ont rien en commun. C'est un pas de géant pour l'animation 3D, les jeux vidéo et le cinéma futuriste.

Each language version is independently generated for its own context, not a direct translation.

Titre

MorphAny3D : Libérer la puissance des représentations latentes structurées pour le morphing 3D

1. Problématique

Le morphing 3D (la transformation fluide d'un objet source vers un objet cible) reste un défi majeur en infographie, particulièrement pour les transformations inter-catégories (ex: une abeille vers un avion). Les approches existantes souffrent de limitations critiques :

Méthodes basées sur la correspondance : Elles nécessitent l'établissement de correspondances denses (points clés, cartes fonctionnelles) entre les objets. Ces méthodes sont souvent rigides, ignorent l'évolution des textures, et échouent fréquemment sur des objets de catégories différentes, produisant des résultats structurellement implausibles.
Approches naïves avec les modèles génératifs :
- Morphing 2D + Génération 3D : Générer une séquence 2D puis la convertir en 3D frame par frame entraîne une incohérence temporelle (scintillement, sauts).
- Interpolation directe des conditions : Interpoler simplement les bruits initiaux ou les conditions d'un générateur 3D (comme Trellis) manque de contraintes structurelles, menant à des déformations chaotiques et à une perte de cohérence sémantique.

L'objectif est de créer un cadre de morphing 3D de haute qualité, sans réentraînement (training-free), capable de produire des séquences fluides, sémantiquement cohérentes et esthétiquement plaisantes, même entre des objets sans relation visuelle directe.

2. Méthodologie

La méthode proposée, MorphAny3D, s'appuie sur la représentation SLAT (Structured Latent) du modèle générateur 3D Trellis. Au lieu d'interpoler les entrées brutes, l'approche fusionne intelligemment les caractéristiques latentes (SLAT) au sein des mécanismes d'attention du générateur.

Le pipeline se compose de trois composants clés :

A. Morphing Cross-Attention (MCA)

Problème résolu : L'interpolation naïve des clés et valeurs (KV) dans l'attention croisée (Cross-Attention) mélange des conditions 2D (issues de DINOv2) de manière patch par patch, créant des ambiguïtés sémantiques et des distorsions locales (ex: un nez qui apparaît sur le front).
Solution : Au lieu de fusionner les clés et valeurs avant le calcul de l'attention, le MCA calcule séparément les sorties d'attention pour l'objet source et l'objet cible, puis les combine linéairement selon le poids de morphing $\alpha$ .
Résultat : Cela préserve la cohérence sémantique des régions d'intérêt (ex: la tête reste la tête) tout en assurant une transition structurelle fluide.

B. Temporal-Fused Self-Attention (TFSA)

Problème résolu : Les générateurs 3D traitent souvent chaque frame indépendamment, ce qui brise la continuité temporelle et crée des artefacts de mouvement.
Solution : Le TFSA intègre les caractéristiques de la frame précédente ( $n-1$ ) dans le mécanisme d'attention auto (Self-Attention) de la frame courante ( $n$ ).
Mécanisme : Il fusionne les sorties d'attention basées sur les clés/valeurs courantes et celles de la frame précédente avec un facteur de pondération $\beta$ . Cela permet d'ancrer la déformation dans l'état précédent, assurant une transition temporelle lisse sans sacrifier la fidélité sémantique.

C. Stratégie de Correction d'Orientation

Problème résolu : Les objets générés par Trellis présentent souvent des sauts d'orientation brusques (surtout à mi-parcours du morphing, $\alpha \approx 0.5$ ) en raison de biais dans la distribution des poses apprises par le modèle.
Solution : Après la génération de la structure éparsse (SS stage), le système génère quatre candidats rotés (0°, 90°, 180°, 270° autour de l'axe Y). Il sélectionne celui qui minimise la distance de Chamfer (CD) par rapport à la structure de la frame précédente.
Résultat : Cela élimine les sauts de pose visuellement choquants sans nécessiter de réentraînement.

3. Contributions Clés

Premier cadre de morphing 3D sans entraînement basé sur SLAT : MorphAny3D exploite les priors génératifs 3D intégrés dans la représentation SLAT pour générer des déformations fluides entre des catégories d'objets diverses.
Nouveaux modules d'attention : Introduction du MCA et du TFSA, qui exploitent la fusion de caractéristiques SLAT pour améliorer la plausibilité structurelle et la cohérence temporelle, surpassant les stratégies d'interpolation naïves.
Correction d'orientation statistique : Une stratégie légère inspirée de la distribution des poses dans les sorties de Trellis pour corriger les sauts d'orientation, améliorant significativement la fluidité visuelle.
Applications avancées natives : Le cadre supporte naturellement le morphing déségré (séparation structure/détails), le morphing multi-cibles et le transfert de style 3D.

4. Résultats Expérimentaux

Les expériences ont été menées sur des paires d'objets divers (animaux, véhicules, bâtiments) en utilisant des métriques quantitatives et qualitatives :

Performance Quantitative : MorphAny3D obtient les meilleurs scores (State-of-the-Art) sur :
- FID (Fréchet Inception Distance) : 111.95 (meilleur score), indiquant une plausibilité visuelle supérieure.
- Aesthetics Scores (AS) : 81% (vs <12% pour les autres méthodes), validé par des modèles VLM (Gemini, ChatGPT).
- User Preference (UP) : 86.73% de préférence par les utilisateurs humains.
- PPL/PDV : Des scores de lissage temporel excellents, proches des meilleures méthodes de lissage mais avec une bien meilleure qualité visuelle.
Comparaison Qualitative : Contrairement aux méthodes basées sur la correspondance (qui produisent des formes géométriques bizarres) ou aux approches 2D->3D (qui sont saccadées), MorphAny3D produit des transitions sémantiquement logiques (ex: la trompe d'un éléphant se transforme harmonieusement en bras d'excavatrice).
Généralisation : La méthode fonctionne sans modification sur d'autres modèles basés sur SLAT (Hi3DGen, Text-to-3D Trellis), démontrant sa robustesse.

5. Signification et Impact

MorphAny3D représente une avancée significative dans le domaine de la manipulation 3D générative.

Élimination de la complexité d'alignement : En se passant de l'étape coûteuse et fragile d'établissement de correspondances denses, la méthode rend le morphing 3D accessible et applicable à n'importe quelle paire d'objets.
Qualité Cinématographique : La capacité à produire des séquences fluides et sémantiquement cohérentes ouvre la voie à de nouvelles applications en animation, en design de jeux vidéo et en effets visuels, là où les méthodes traditionnelles échouaient.
Efficacité : Le fait d'être "training-free" signifie que cette technologie peut être déployée immédiatement sur des modèles génératifs 3D existants sans coût de calcul supplémentaire pour l'entraînement.

En résumé, MorphAny3D démontre que l'analyse et la fusion intelligente des représentations latentes au sein des mécanismes d'attention peuvent résoudre les problèmes fondamentaux de cohérence et de fluidité en morphing 3D, surpassant les paradigmes traditionnels basés sur la géométrie explicite.