cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

Le papier présente cadrille, un modèle de reconstruction CAD multi-modal intégrant images, nuages de points et texte, qui atteint des performances de pointe grâce à un pipeline d'apprentissage combinant un affinage supervisé et un affinage par renforcement en ligne (GRPO).

Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich

Publié 2026-02-18
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un objet physique devant vous : une pièce de machine, un jouet, ou même un meuble. Vous voulez le transformer en un modèle numérique 3D que l'on peut modifier, imprimer en 3D ou utiliser dans un logiciel d'ingénierie. C'est ce qu'on appelle la reconnaissance CAD (Conception Assistée par Ordinateur).

Jusqu'à présent, c'était comme essayer de dessiner un tableau complexe en n'ayant qu'un seul type de pinceau. Si vous aviez un nuage de points (une photo 3D floue), vous utilisiez une méthode. Si vous aviez une photo, une autre. Si vous aviez une description textuelle, encore une autre. Et souvent, ces méthodes ne fonctionnaient pas très bien ensemble.

Voici comment les auteurs de ce papier ont créé Cadrille, un nouveau système qui change la donne.

1. Le Problème : Le "Couteau Suisse" qui ne coupe rien

Imaginez que vous essayez de reconstruire une maison à partir de ses plans.

  • Si vous ne donnez au système que des photos (comme un architecte regardant une façade), il peut se tromper sur la profondeur.
  • Si vous ne donnez que des nuages de points (comme un scanner laser), il peut manquer les détails fins comme les textures.
  • Si vous ne donnez que du texte ("une maison avec un toit rouge"), il peut inventer des formes bizarres.

Les anciennes méthodes étaient comme des artisans spécialisés : l'un ne savait faire que les murs, l'autre que les toits. Ils étaient bons dans leur domaine, mais incapables de comprendre l'ensemble si vous leur donniez plusieurs types d'informations en même temps.

2. La Solution : Cadrille, le "Chef d'Orchestre Polyglotte"

Cadrille est un modèle d'intelligence artificielle qui agit comme un chef d'orchestre capable de comprendre trois langages à la fois :

  1. Les yeux (les images et les photos).
  2. Les doigts (les nuages de points 3D, comme ceux d'un scanner).
  3. La voix (les descriptions textuelles).

Au lieu de simplement "deviner" la forme, Cadrille écrit du code Python (un langage informatique). C'est comme si, au lieu de vous donner un dessin de la maison, il vous écrivait les instructions exactes pour la construire brique par brique dans un logiciel de design. Si le code est bon, la maison est parfaite.

3. L'Entraînement : Apprendre à lire, puis à corriger

Pour entraîner Cadrille, les chercheurs ont utilisé une méthode en deux étapes, un peu comme l'éducation d'un enfant brillant :

  • Étape 1 : L'école (Apprentissage Supervisé)
    Ils ont d'abord montré à Cadrille des millions de modèles 3D générés par ordinateur (des "maisons virtuelles" parfaites). C'est comme lui faire lire tous les manuels de construction du monde. Il apprend à associer une photo ou un nuage de points à un code de construction.

    • Le problème : Comme il n'a appris que sur des modèles parfaits, il a du mal avec les objets réels qui ont des défauts (rayures, poussière, parties manquantes).
  • Étape 2 : Le stage de perfectionnement (Apprentissage par Renforcement)
    C'est ici que la magie opère. Au lieu de continuer à lire des manuels, on donne à Cadrille des objets réels et on lui dit : "Essaie de reconstruire cet objet. Si ton code fonctionne et crée un objet propre, tu gagnes des points. Si ton code plante ou crée un monstre, tu perds des points."

    C'est comme un jeu vidéo où le joueur doit essayer, échouer, et recommencer jusqu'à ce qu'il trouve la solution parfaite. Cette étape permet à Cadrille de devenir robuste : il apprend à ignorer les défauts des scans réels et à deviner ce qui manque.

4. Le Résultat : Un Super-Héros du Design

Grâce à cette méthode, Cadrille bat tous les records précédents.

  • Il est polyvalent : Il peut prendre une photo, un scan 3D ou une phrase, et produire le même résultat de haute qualité.
  • Il est précis : Il ne fait pas d'erreurs de code (ce qui était un gros problème avant).
  • Il est robuste : Il fonctionne même sur des objets réels, sales ou abîmés, pas seulement sur des modèles virtuels parfaits.

En résumé

Imaginez que vous avez un vieux meuble abîmé dans votre grenier.

  • Avant : Vous deviez engager un expert, scanner le meuble, puis un autre expert pour le dessiner, et un troisième pour le corriger. C'était long, cher et souvent imparfait.
  • Avec Cadrille : Vous prenez une photo de votre meuble avec votre téléphone, ou vous le scannez avec une application. Cadrille comprend instantanément, ignore les rayures, et écrit le code pour recréer le meuble parfaitement dans un logiciel, prêt à être modifié ou réparé.

C'est un pas de géant pour rendre le design industriel accessible à tout le monde, pas seulement aux experts en CAO.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →