QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un architecte de mondes virtuels, chargé de construire des personnages de jeux vidéo ou des objets en 3D. Pour que ces créations soient réalistes, fluides et prêtes à être animées, elles doivent être construites avec des "briques" spécifiques : des quadrilatères (des formes à 4 côtés), comme des carreaux de céramique parfaitement alignés.

Jusqu'à présent, les ordinateurs avaient du mal à faire cela. Voici l'histoire de QuadGPT, le nouveau héros qui change la donne, expliquée simplement.

1. Le Problème : Le "Casse-tête" des triangles

Pensez à la construction d'une maison.

Les anciennes méthodes (les concurrents) fonctionnaient comme un maçon maladroit : ils construisaient d'abord le mur avec des triangles (des formes à 3 côtés, comme des éclats de verre). Ensuite, ils essayaient de coller deux triangles ensemble pour former un carré.
Le résultat ? Souvent, le mur finissait avec des fissures, des trous, ou des motifs bizarres. C'est comme essayer de faire un puzzle en forçant des pièces qui ne vont pas ensemble. Pour un animateur, c'est un cauchemar : le personnage ne peut pas bouger sans se déformer bizarrement.

2. La Solution : QuadGPT, l'architecte natif

QuadGPT est différent. Au lieu de construire en triangles et d'espérer que ça marche, il apprend à penser directement en carrés.

Imaginez un chef cuisinier :

Les autres cuisiniers préparent d'abord une salade de fruits (des triangles) et espèrent pouvoir la transformer en un gâteau parfait.
QuadGPT, lui, sait exactement comment pétrir la pâte pour former un gâteau parfait dès le début, sans avoir besoin de tricher à la fin.

3. Comment ça marche ? (Les 3 ingrédients secrets)

A. Le Langage Universel (Tokenisation Unifiée)

Pour que l'ordinateur comprenne, il faut traduire la forme 3D en une suite de mots (des nombres).

L'astuce : QuadGPT a inventé un langage où un triangle et un carré sont écrits sur la même "page" de longueur. Si le carré a besoin de 12 lettres et le triangle de 9, il ajoute 3 lettres invisibles (des espaces vides) pour que les deux fassent la même taille.
L'analogie : C'est comme si vous écriviez une histoire où chaque phrase fait exactement 10 mots. Si une phrase est courte, vous ajoutez des points de suspension pour qu'elle atteigne 10 mots. Cela permet à l'ordinateur de lire l'histoire sans se tromper, peu importe si la phrase parle d'un triangle ou d'un carré.

B. L'Entraînement en Deux Temps (Curriculum Learning)

Apprendre à faire des carrés complexes est difficile. Alors, QuadGPT a suivi une école spéciale :

La maternelle : Il a d'abord appris à faire des triangles simples (ce qui est plus facile).
L'université : Une fois qu'il maîtrisait les triangles, on lui a appris progressivement à les transformer en carrés.

L'analogie : C'est comme apprendre à nager. On commence par s'entraîner dans la petite piscine (les triangles) avant de plonger dans la grande piscine avec les vagues (les carrés complexes). Cela évite qu'il ne se noie au début.

C. Le Coach de Récompense (Apprentissage par Renforcement)

Même avec de bonnes bases, l'ordinateur peut faire des erreurs de "style". Il peut faire des carrés, mais pas dans le bon sens pour l'animation.

La méthode : On a créé un "coach" virtuel (un système de récompense) qui regarde ce que l'ordinateur produit. Si l'ordinateur crée une boucle de lignes propre (comme des anneaux de fumée qui ne se cassent pas), le coach dit "Bravo !". S'il crée une fissure, le coach dit "Non, recommence".
L'analogie : C'est comme un professeur d'art qui ne se contente pas de dire "c'est un dessin", mais qui dit "c'est un dessin, mais les lignes de mouvement sont parfaites, donc tu gagnes des étoiles". Grâce à cela, QuadGPT apprend à faire des dessins que les vrais artistes adorent.

4. Pourquoi c'est une révolution ?

Avant, pour avoir un bon modèle 3D, il fallait souvent un humain qui passait des heures à réparer les erreurs de l'ordinateur.
Aujourd'hui, QuadGPT prend une simple image ou un nuage de points (comme une photo en 3D) et sort directement un modèle prêt pour l'industrie du jeu vidéo.

Résultat : Des personnages qui bougent naturellement, des objets qui se déforment sans se casser, et un gain de temps énorme pour les créateurs.

En résumé : QuadGPT est le premier ordinateur capable de "rêver" directement en carrés parfaits, sans avoir besoin de faire des triangles d'abord et de les bricoler ensuite. C'est comme passer d'un artisan qui assemble des pièces détachées à un magicien qui fait apparaître l'objet fini, parfait et prêt à l'emploi.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La génération de maillages 3D de haute fidélité pour l'industrie (jeux vidéo, animation) repose sur des maillages dominés par les quadrilatères (quads). Contrairement aux maillages triangulaires, les quads offrent une topologie structurée essentielle pour :

La stabilité de la déformation (animation).
Le lissage des surfaces de subdivision.
Le déroulage UV (UV unwrapping) et la modélisation artistique.

Limites des approches existantes :

Méthodes indirectes : La plupart des modèles génératifs actuels (basés sur des réseaux de diffusion ou des modèles autoregressifs) génèrent d'abord des maillages triangulaires denses et non structurés (via des algorithmes comme Marching Cubes), puis tentent de les convertir en quads. Cette conversion post-hoc brise souvent le flux des arêtes (edge flow), introduit des artefacts topologiques et échoue à reproduire la structure "artistique" souhaitée.
Méthodes guidées par des champs : Les approches traditionnelles utilisant des champs croisés (cross-fields) sont souvent non robustes, nécessitent des maillages d'entrée parfaits et ne sont pas des cadres de génération end-to-end.

Il existe donc un fossé fondamental entre les assets 3D générés par l'IA (souvent triangulaires) et les besoins industriels nécessitant des maillages natifs en quads.

2. Méthodologie : QuadGPT

QuadGPT est le premier cadre autoregressif capable de générer directement des maillages natifs dominés par les quadrilatères (et mixtes) de manière end-to-end, à partir d'un nuage de points.

A. Sérialisation Unifiée pour Topologies Mixtes

Le défi principal est de représenter un maillage contenant à la fois des triangles et des quadrilatères dans une séquence de tokens linéaire.

Représentation Canonique : Les coordonnées des sommets sont normalisées et quantifiées (10 bits). Les sommets sont triés lexicographiquement pour assurer une séquence unique.
Bloc de Tokens Unifié : Chaque face est convertie en un bloc de 12 tokens fixe.
- Pour un quadrilatère : Les 12 tokens correspondent aux 4 sommets × 3 coordonnées.
- Pour un triangle : Le bloc est préfixé par 3 tokens de remplissage (padding tokens, $\tau_{pad}$ ), suivis des 9 tokens de coordonnées (3 sommets × 3).
Cette stratégie permet au modèle d'apprendre implicitement le type de face via la présence de remplissage, simplifiant l'architecture sans tokens de type explicites.

B. Architecture et Pré-entraînement

Modèle : QuadGPT utilise une architecture Hourglass Transformer. Elle traite la séquence à plusieurs niveaux d'abstraction : compression de la séquence (facteurs 3 et 4) pour capturer le contexte global, puis décompression pour la prédiction fine des détails locaux.
Conditionnement :
- Géométrie : Un nuage de points avec normales est encodé via un encodeur pré-entraîné (Michelangelo) et injecté dans le décodeur par cross-attention.
- Contrôle Topologique : Un paramètre $r \in [0, 1]$ contrôle le ratio cible de faces quadrilatérales, permettant un apprentissage progressif.
Stratégie d'Entraînement (Curriculum Learning) : Le modèle est initialisé avec des poids pré-entraînés sur des maillages triangulaires. Il est ensuite affiné progressivement, en passant d'un ratio de triangles pur ( $r=0$ ) à un ratio dominé par les quads ( $r \to 1$ ). Cela stabilise l'apprentissage de la syntaxe géométrique avant d'introduire la complexité topologique des quads.

C. Affinement par Apprentissage par Renforcement (tDPO)

L'objectif de perte standard (entropie croisée) optimise la validité locale mais pas la qualité topologique globale (ex: boucles d'arêtes continues).

tDPO (Truncated Direct Preference Optimization) : Une étape de post-entraînement utilise l'optimisation par préférence directe.
Récompense Topologique : Un système de récompense évalue automatiquement les séquences tronquées générées en fonction de :
- La formation de boucles d'arêtes continues (longueur moyenne des anneaux).
- La pénalisation des fractures (ruptures topologiques où la génération ne se connecte pas correctement).
Le modèle est entraîné à préférer les séquences ayant une meilleure intégrité topologique, favorisant ainsi des structures de maillage "artistiques" et cohérentes.

3. Contributions Clés

QuadGPT : Le premier modèle autoregressif générant nativement des maillages quadrilatéraux dominants de bout en bout.
Représentation Unifiée : Un schéma de sérialisation basé sur le remplissage (padding) permettant de gérer efficacement des topologies hétérogènes (triangles + quads) dans une seule séquence.
tDPO Topologique : Une méthode d'affinement par RL utilisant une récompense basée sur la structure des boucles d'arêtes pour optimiser la qualité globale du maillage, au-delà de la simple géométrie.
Performance SOTA : Démonstration que la génération native est supérieure aux pipelines de conversion (Triangle $\to$ Quad), tant en précision géométrique qu'en qualité topologique.

4. Résultats Expérimentaux

Les expériences ont été menées sur le jeu de données Toys4K et des maillages denses générés par Hunyuan3D.

Comparaison Quantitative : QuadGPT surpasse les méthodes de l'état de l'art (MeshAnything, BPT, DeepMesh, QuadriFlow) sur toutes les métriques :
- Fidélité Géométrique : Meilleures distances de Chamfer (CD) et de Hausdorff (HD).
- Qualité Topologique : Ratio de Quads (QR) nettement supérieur (80% vs ~50-60% pour les convertisseurs).
- Étude Utilisateur : Les experts ont classé les sorties de QuadGPT bien au-dessus des autres méthodes (score moyen de 4.8/5 contre < 3.1 pour les concurrents), soulignant la qualité "prête pour la production".
Comparaison Qualitative :
- Les pipelines de conversion (Triangle $\to$ Quad) produisent souvent des flux d'arêtes incohérents et des artefacts.
- QuadGPT génère des maillages avec un flux d'arêtes propre, des boucles structurées et une fidélité géométrique élevée, même sur des formes complexes et organiques.
Ablation Studies :
- La stratégie de Curriculum Learning (initier par des triangles) est cruciale pour la convergence.
- La méthode tDPO-Pro (avec récompense topologique complète) surpasse largement le DPO standard et l'entraînement sans RL.
- La génération native (QuadGPT) est supérieure à la génération triangulaire suivie de conversion (TriGPT), prouvant que la conversion post-hoc est intrinsèquement limitante.

5. Signification et Impact

Ce travail établit une nouvelle norme pour la génération d'assets 3D structurés.

Changement de Paradigme : Il démontre que les modèles autoregressifs peuvent gérer des topologies complexes (quads) directement, sans recourir à des heuristiques de conversion post-traitement qui dégradent la qualité.
Application Industrielle : En produisant des maillages "artist-friendly" avec des boucles d'arêtes propres, QuadGPT comble le fossé entre la génération procédurale par IA et les besoins réels des studios de jeux vidéo et d'animation (déformation, UV, subdivision).
Scalabilité : L'approche combine des modèles à grande échelle (1.1B paramètres) avec un affinement par RL, prouvant la viabilité d'une approche "neural-first" pour la modélisation 3D structurée.

En résumé, QuadGPT résout un problème fondamental de la génération 3D en passant d'une approche "géométrie d'abord, topologie ensuite" à une génération native et structurée, ouvrant la voie à une automatisation complète de la création d'assets 3D de qualité professionnelle.