cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un objet physique devant vous : une pièce de machine, un jouet, ou même un meuble. Vous voulez le transformer en un modèle numérique 3D que l'on peut modifier, imprimer en 3D ou utiliser dans un logiciel d'ingénierie. C'est ce qu'on appelle la reconnaissance CAD (Conception Assistée par Ordinateur).

Jusqu'à présent, c'était comme essayer de dessiner un tableau complexe en n'ayant qu'un seul type de pinceau. Si vous aviez un nuage de points (une photo 3D floue), vous utilisiez une méthode. Si vous aviez une photo, une autre. Si vous aviez une description textuelle, encore une autre. Et souvent, ces méthodes ne fonctionnaient pas très bien ensemble.

Voici comment les auteurs de ce papier ont créé Cadrille, un nouveau système qui change la donne.

1. Le Problème : Le "Couteau Suisse" qui ne coupe rien

Imaginez que vous essayez de reconstruire une maison à partir de ses plans.

Si vous ne donnez au système que des photos (comme un architecte regardant une façade), il peut se tromper sur la profondeur.
Si vous ne donnez que des nuages de points (comme un scanner laser), il peut manquer les détails fins comme les textures.
Si vous ne donnez que du texte ("une maison avec un toit rouge"), il peut inventer des formes bizarres.

Les anciennes méthodes étaient comme des artisans spécialisés : l'un ne savait faire que les murs, l'autre que les toits. Ils étaient bons dans leur domaine, mais incapables de comprendre l'ensemble si vous leur donniez plusieurs types d'informations en même temps.

2. La Solution : Cadrille, le "Chef d'Orchestre Polyglotte"

Cadrille est un modèle d'intelligence artificielle qui agit comme un chef d'orchestre capable de comprendre trois langages à la fois :

Les yeux (les images et les photos).
Les doigts (les nuages de points 3D, comme ceux d'un scanner).
La voix (les descriptions textuelles).

Au lieu de simplement "deviner" la forme, Cadrille écrit du code Python (un langage informatique). C'est comme si, au lieu de vous donner un dessin de la maison, il vous écrivait les instructions exactes pour la construire brique par brique dans un logiciel de design. Si le code est bon, la maison est parfaite.

3. L'Entraînement : Apprendre à lire, puis à corriger

Pour entraîner Cadrille, les chercheurs ont utilisé une méthode en deux étapes, un peu comme l'éducation d'un enfant brillant :

Étape 1 : L'école (Apprentissage Supervisé)
Ils ont d'abord montré à Cadrille des millions de modèles 3D générés par ordinateur (des "maisons virtuelles" parfaites). C'est comme lui faire lire tous les manuels de construction du monde. Il apprend à associer une photo ou un nuage de points à un code de construction.
- Le problème : Comme il n'a appris que sur des modèles parfaits, il a du mal avec les objets réels qui ont des défauts (rayures, poussière, parties manquantes).
Étape 2 : Le stage de perfectionnement (Apprentissage par Renforcement)
C'est ici que la magie opère. Au lieu de continuer à lire des manuels, on donne à Cadrille des objets réels et on lui dit : "Essaie de reconstruire cet objet. Si ton code fonctionne et crée un objet propre, tu gagnes des points. Si ton code plante ou crée un monstre, tu perds des points."

C'est comme un jeu vidéo où le joueur doit essayer, échouer, et recommencer jusqu'à ce qu'il trouve la solution parfaite. Cette étape permet à Cadrille de devenir robuste : il apprend à ignorer les défauts des scans réels et à deviner ce qui manque.

4. Le Résultat : Un Super-Héros du Design

Grâce à cette méthode, Cadrille bat tous les records précédents.

Il est polyvalent : Il peut prendre une photo, un scan 3D ou une phrase, et produire le même résultat de haute qualité.
Il est précis : Il ne fait pas d'erreurs de code (ce qui était un gros problème avant).
Il est robuste : Il fonctionne même sur des objets réels, sales ou abîmés, pas seulement sur des modèles virtuels parfaits.

En résumé

Imaginez que vous avez un vieux meuble abîmé dans votre grenier.

Avant : Vous deviez engager un expert, scanner le meuble, puis un autre expert pour le dessiner, et un troisième pour le corriger. C'était long, cher et souvent imparfait.
Avec Cadrille : Vous prenez une photo de votre meuble avec votre téléphone, ou vous le scannez avec une application. Cadrille comprend instantanément, ignore les rayures, et écrit le code pour recréer le meuble parfaitement dans un logiciel, prêt à être modifié ou réparé.

C'est un pas de géant pour rendre le design industriel accessible à tout le monde, pas seulement aux experts en CAO.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La conception assistée par ordinateur (CAO) est fondamentale pour l'ingénierie et la fabrication, mais la création manuelle de modèles 3D précis et modifiables demande du temps et des compétences. La reconstruction CAO vise à générer automatiquement des modèles CAO à partir de données d'entrée (nuages de points, images, descriptions textuelles).

Les défis majeurs identifiés dans l'état de l'art sont :

Limitation des modalités : La plupart des méthodes existantes se concentrent sur une seule modalité d'entrée (généralement les nuages de points), ce qui limite leur généralisabilité et leur robustesse. Les approches multimodales actuelles (comme CAD-MLLM) sont nettement inférieures aux méthodes mono-modales.
Qualité et validité du code : Les méthodes récentes qui génèrent du code Python exécutable (comme CAD-Recode) souffrent souvent d'un taux d'invalidité élevé (le code généré ne produit pas de modèle valide) et peinent à généraliser aux données du monde réel (ex: scans CC3D).
Écart de domaine : Les modèles entraînés sur des données générées procéduralement ne transfèrent pas bien vers les données réelles, tandis que l'entraînement sur des données "faites main" (handcrafted) est limité en volume et peut nuire aux performances si mal mélangé.

2. Méthodologie : CA DRILLE

Les auteurs proposent cadrille, un modèle multimodal basé sur les grands modèles de langage (LLM) et de vision-langage (VLM) qui génère des scripts Python exécutables (utilisant la bibliothèque CadQuery) pour reconstruire des modèles CAO.

Architecture

Base : Le modèle s'appuie sur un VLM pré-entraîné (Qwen2-VL-2B) capable de comprendre le texte et les images.
Entrées unifiées :
- Texte : Traitée via la couche d'embedding standard du VLM.
- Images : Traitées via l'encodeur visuel natif.
- Nuages de points : Intégrés via une couche de projection linéaire unique (sans normales), similaire à CAD-Recode, permettant d'injecter les points 3D dans l'espace d'embedding du LLM.
Sortie : Un script Python exécutable qui génère un modèle B-Rep (Boundary Representation) paramétrique.

Pipeline d'Entraînement en Deux Étapes

L'approche innovante réside dans la stratégie d'entraînement, inspirée des paradigmes de formation des LLM :

Supervised Fine-Tuning (SFT) :
- Le modèle est entraîné sur un vaste ensemble de données générées procéduralement (dataset CAD-Recode, ~1 million de modèles).
- Cela permet au modèle d'apprendre la syntaxe du code CAO et de généraliser à travers le domaine de la CAO sans être limité par la diversité restreinte des données "faites main".
- Le modèle apprend à mapper les entrées multimodales (nuages de points, images, texte) vers des séquences de tokens Python.
Reinforcement Learning (RL) Fine-Tuning :
- Contrairement aux méthodes précédentes qui appliquent le RL sur les mêmes données que le SFT, cadrille utilise des données faites main (DeepCAD, Fusion360) et des données réelles (CC3D) pour cette étape.
- Fonction de Récompense : Une récompense est calculée de manière programmatique en exécutant le code généré et en comparant le résultat géométrique au modèle de vérité terrain (Ground Truth).
  - $R(\tau) = r_{IoU}(\tau) + r_{invalid}(\tau)$
  - Le terme $r_{IoU}$ mesure l'Intersection over Union (IoU) entre le maillage généré et la vérité terrain.
  - Le terme $r_{invalid}$ pénalise sévèrement (-10) les codes qui ne s'exécutent pas ou produisent des modèles invalides.
- Algorithmes RL : Les auteurs comparent et utilisent deux approches :
  - DPO (Direct Preference Optimization) : Utilise des paires de préférences (meilleur vs pire résultat) dérivées de l'échantillonnage.
  - Dr. CPPO : Une méthode hybride combinant Dr. GRPO (sans modèle de référence explicite) et CPPO (utilisant les échantillons au signal le plus fort). Cette méthode s'avère supérieure, permettant un apprentissage en ligne avec de nouveaux échantillons générés à chaque étape.
- Hard Example Mining : Seuls les exemples où la récompense moyenne est faible (seuil $R_{th} = 7.5$ ) sont utilisés pour le RL, accélérant la convergence.

3. Contributions Clés

Premier modèle multimodal performant : cadrille est le premier modèle à traiter simultanément les nuages de points, les images multi-vues et les descriptions textuelles dans un cadre unifié, surpassant les méthodes mono-modales sur toutes les modalités.
Validation du RL pour la CAO : Première preuve que le fine-tuning par renforcement améliore significativement la reconstruction multimodale, en particulier pour garantir la validité du code généré.
Stratégie d'entraînement hybride : Utilisation de données procédurales massives pour le SFT (généralisation) et de données réelles/faites main pour le RL (spécialisation et robustesse), résolvant le problème de l'incohérence des séquences de commandes entre les jeux de données.
Évaluation exhaustive : Établissement d'un nouvel état de l'art (SOTA) sur 10 benchmarks répartis sur 3 modalités et 4 jeux de données (DeepCAD, Fusion360, CC3D, Omni-CAD), incluant un jeu de données réel (CC3D).

4. Résultats

Les expériences montrent des performances supérieures aux méthodes existantes :

Précision et Validité : Sur le jeu de données DeepCAD, cadrille réduit le taux d'invalidité (IR) de manière drastique (ex: de 3,6 % à 0,5 % pour les images) tout en améliorant l'IoU.
Généralisation : Le modèle atteint des performances SOTA sur le jeu de données réel CC3D (scans bruyants, pièces manquantes), avec un taux d'invalidité inférieur à 0,2 %, ce qui est négligeable.
Efficacité du RL :
- Le fine-tuning RL sur des images améliore également la reconstruction à partir de nuages de points (transfert de modalités).
- L'approche Dr. CPPO surpasse le SFT seul et le DPO, augmentant l'IoU de 3 à 9 % et réduisant l'IR à moins de 0,2 % sur tous les benchmarks.
- Contrairement aux méthodes précédentes qui nécessitent un échantillonnage à l'inférence (ex: générer 10 modèles pour en choisir le meilleur), cadrille avec RL atteint de meilleures performances avec une seule inférence, préservant l'efficacité temporelle.
Comparaison : Sur DeepCAD, cadrille bat CAD-Recode (nuages de points), CADCrafter (images) et Text2CAD (texte) simultanément.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine de la reconstruction CAO :

Démocratisation : En acceptant des entrées variées (y compris des images de smartphones ou des descriptions textuelles), il rend la conception CAO accessible aux non-experts.
Robustesse Réelle : La capacité à traiter des scans réels bruités (CC3D) avec un taux d'échec quasi nul ouvre la voie à des applications industrielles réelles de reverse engineering.
Paradigme de Formation : La démonstration que le RL, appliqué sur des données ciblées et avec des récompenses programmatiques, est supérieur au simple mélange de données pour le SFT, offre une nouvelle feuille de route pour l'entraînement de modèles génératifs dans des domaines techniques exigeants.

En résumé, cadrille démontre qu'en combinant la puissance des VLM, l'entraînement supervisé à grande échelle et le fine-tuning par renforcement ciblé, il est possible de créer un système de reconstruction CAO universel, précis et robuste, capable de générer du code exécutable de haute qualité à partir de n'importe quelle modalité d'entrée.

cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

1. Le Problème : Le "Couteau Suisse" qui ne coupe rien

2. La Solution : Cadrille, le "Chef d'Orchestre Polyglotte"

3. L'Entraînement : Apprendre à lire, puis à corriger

4. Le Résultat : Un Super-Héros du Design

En résumé

1. Problématique

2. Méthodologie : CA DRILLE

Architecture

Pipeline d'Entraînement en Deux Étapes

3. Contributions Clés

4. Résultats

5. Signification et Impact

Articles similaires

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank