Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez construire une maison en Lego, mais au lieu de le faire avec vos mains, vous demandez à un robot très intelligent de le faire pour vous en lui donnant une simple description à voix haute : « Je veux une tour avec une fenêtre ronde et un toit pointu ».

C'est là que le projet Seek-CAD entre en jeu. C'est un nouveau système développé par des chercheurs de l'Université Fudan à Shanghai pour créer des modèles 3D complexes (comme des pièces de machines ou des meubles) à partir de texte, sans avoir besoin d'entraîner le robot pendant des mois.

Voici comment cela fonctionne, expliqué simplement avec des analogies :

1. Le Problème : Le Robot qui "Hallucine"

Avant, pour faire faire des dessins techniques à une intelligence artificielle (IA), il fallait souvent lui apprendre de zéro (ce qu'on appelle le "fine-tuning"), ce qui est long et coûteux. Les méthodes gratuites existantes utilisaient des IA puissantes, mais elles avaient un défaut majeur : elles avaient tendance à "rêver" ou à inventer des formes qui ne correspondaient pas à la demande. C'est comme si vous demandiez une chaise et que le robot vous donnait une table avec des roues.

2. La Solution : Seek-CAD, l'Architecte Autodidacte

Les chercheurs ont créé Seek-CAD. Au lieu d'entraîner le robot, ils ont utilisé un modèle d'IA très puissant et déjà entraîné (DeepSeek-R1) qu'ils ont installé localement (sur leur propre ordinateur).

Imaginez que DeepSeek-R1 est un architecte génial qui connaît toutes les règles de la construction, mais qui a besoin d'un peu d'aide pour ne pas se tromper de plan.

3. La Méthode Magique : Le "Brouillon Visuel" et le "Professeur"

C'est ici que Seek-CAD devient brillant. Il utilise une technique appelée auto-affinement (self-refinement). Voici le processus en trois étapes, comme une répétition théâtrale :

Étape 1 : Le Brouillon (La Genèse)
L'architecte (DeepSeek-R1) lit votre demande et écrit le code pour construire l'objet. Il pense à voix haute (c'est ce qu'on appelle la "Chaîne de Pensée" ou CoT), expliquant chaque étape : « D'abord, je dessine un rond, ensuite je l'étire... ».
Étape 2 : Le Cinéma Pas à Pas (Le Feedback Visuel)
Au lieu de juste regarder le résultat final, le système prend le code et génère une vidéo de construction (ou une série d'images) montrant l'objet se construire pièce par pièce.
- L'analogie : Imaginez que vous construisez un château de sable. Au lieu de montrer juste le château fini, vous montrez une vidéo où l'on voit d'abord le socle, puis les murs, puis le toit.
Étape 3 : Le Professeur Critique (Le VLM)
Une autre IA, spécialisée dans la vision (Gemini-2.0), agit comme un professeur d'art. Elle regarde la vidéo de construction et compare ce qu'elle voit avec ce que l'architecte a dit dans son "brouillon" (sa chaîne de pensée).
- Si le professeur dit : « Attends, tu as dit que tu allais faire un toit pointu, mais sur l'image, c'est plat ! », il envoie ce message de correction à l'architecte.
- L'architecte relit ses notes, comprend l'erreur, et réécrit le code pour corriger le toit.

Ce processus se répète jusqu'à ce que le professeur soit satisfait. C'est comme un jeu de "Tiens-toi droit" où l'IA se corrige elle-même en voyant ses propres erreurs visuelles.

4. La Nouvelle Règle du Jeu : Le Paradigme SSR

Pour que tout cela fonctionne bien, les chercheurs ont inventé une nouvelle façon de décrire les objets, qu'ils appellent SSR (Croquis, Forme de base, Raffinement).

L'analogie : Au lieu de dire "Fais un objet complexe", on dit : "Dessine un rond (Croquis), étire-le pour faire un cylindre (Forme de base), puis ajoute des bords arrondis (Raffinement)".
C'est comme si on apprenait à l'architecte à construire par couches successives, ce qui rend les objets beaucoup plus réalistes et complexes que les méthodes précédentes.

5. Le Résultat : Des Objets Réalistes et Précis

Grâce à cette méthode, Seek-CAD peut créer des pièces industrielles complexes (avec des trous, des bords arrondis, des formes creuses) qui correspondent exactement à la description textuelle.

Avantage clé : Il n'a pas besoin d'être réentraîné. Il est prêt à l'emploi, rapide et flexible.
Performance : Les tests montrent qu'il fait moins d'erreurs de forme que les autres méthodes et comprend mieux les nuances de la demande.

En Résumé

Seek-CAD, c'est comme donner un crayon magique à un architecte très intelligent, mais avec une règle d'or : il doit dessiner son plan, le montrer à un critique d'art qui vérifie chaque coup de crayon, et corriger ses erreurs avant de montrer le résultat final. Le tout se fait sans avoir besoin d'école (entraînement), juste en utilisant la logique et la vision de l'IA pour se perfectionner elle-même.

C'est une avancée majeure pour l'industrie, car cela permet de transformer une idée simple en un plan de construction 3D précis, rapidement et sans coût de formation colossal.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : SEEK-CAD – Modélisation Générative Auto-Réfinie pour le CAD Paramétrique 3D

1. Problématique

La modélisation générative assistée par ordinateur (CAD) est en pleine mutation avec l'avènement des Grands Modèles de Langage (LLM). Cependant, les approches existantes souffrent de plusieurs limitations :

Dépendance au fine-tuning : La plupart des méthodes nécessitent un réentraînement coûteux de modèles sur des corpus spécifiques, ce qui réduit la flexibilité et l'efficacité.
Absence de mécanisme de réflexion (CoT) : Les approches "sans entraînement" (training-free) actuelles utilisent souvent des LLM avancés mais ne parviennent pas à exploiter efficacement la capacité de raisonnement en chaîne de pensée (Chain-of-Thought, CoT), limitant ainsi leur potentiel pour des tâches complexes.
Paradigmes de modélisation limités : La majorité des jeux de données et des modèles se basent sur le paradigme SE (Sketch-Extrusion), qui ne supporte qu'un sous-ensemble d'opérations basiques, rendant difficile la génération de modèles industriels complexes (avec des congés, des chanfreins, des coques, etc.).
Manque de feedback visuel intermédiaire : Les méthodes de vérification actuelles se concentrent souvent sur la forme finale, ignorant les étapes intermédiaires de construction, ce qui empêche une correction précise des erreurs de logique de conception.

2. Méthodologie : Le Framework SEEK-CAD

Seek-CAD est un framework génératif sans entraînement (training-free) qui repose sur l'utilisation locale d'un modèle de raisonnement, DeepSeek-R1-32B-Q4, couplé à un mécanisme de rétroaction visuelle étape par étape.

A. Pipeline d'Inférence Locale et RAG

Modèle de base : Utilisation de DeepSeek-R1-32B-Q4 déployé localement (via Ollama) pour générer du code CAD. Cela évite les coûts de fine-tuning et préserve la confidentialité des données.
Contraintes de Connaissance (Knowledge Constraint) : Un prompt système strict est utilisé pour guider le modèle vers le paradigme SSR (décrit ci-dessous) et réduire les hallucinations.
Génération Augmentée par Récupération (RAG) : Un corpus local de 10 000 modèles CAD est indexé. Pour une requête utilisateur, les 3 exemples les plus pertinents sont récupérés (via une recherche hybride vectorielle et textuelle) et injectés dans le contexte pour guider la génération initiale du code CAD ( $I_0$ ).

B. Le Paradigme de Conception SSR (Sketch, Sketch-based feature, Refinements)

Contrairement au paradigme SE traditionnel, Seek-CAD introduit le triplet SSR pour chaque étape de modélisation :

Sketch (S) : Un croquis 2D.
Feature basée sur le croquis (f) : Opération comme l'extrusion ou la révolution.
Raffinements (R) : Une séquence optionnelle d'opérations de finition (congés, chanfreins, coques).

Mécanisme CapType : Pour gérer les références topologiques complexes (nécessaires pour les opérations de raffinement sur des géométries générées), le système utilise un mécanisme de référence CapType (START, END, SWEPT) qui lie les primitives du croquis aux primitives résultantes, permettant une précision accrue dans les modèles complexes.

C. Boucle d'Auto-Réfinement avec Feedback Visuel Étape par Étape (SVF)

C'est le cœur innovant de la méthode :

Rendu Étape par Étape : Le code CAD initial est exécuté pour générer une séquence d'images de perspective. Contrairement aux méthodes précédentes, Seek-CAD rend non seulement la forme finale, mais aussi les formes intermédiaires ( $M_I$ ), en mettant en évidence l'entité ajoutée à chaque étape tout en masquant les précédentes pour éviter l'occlusion.
Évaluation par VLM : Ces images intermédiaires et finales sont envoyées à un Vision Language Model (VLM, ici Gemini-2.0) conjointement avec la Chaîne de Pensée (CoT) générée par DeepSeek-R1.
Feedback et Itération : Le VLM évalue l'alignement entre la logique de conception (CoT) et la géométrie visuelle. Si des incohérences sont détectées, un feedback détaillé est renvoyé à DeepSeek-R1 pour réviser le code. Ce processus itératif (max 2 itérations) permet de corriger les erreurs de logique avant la finalisation.

3. Contributions Clés

Framework Seek-CAD : Première exploration d'un modèle de raisonnement local (DeepSeek-R1) pour la génération de CAD paramétrique sans entraînement, intégrant un mécanisme d'auto-réfinement via un feedback visuel et textuel combiné.
Paradigme SSR et Jeu de Données : Introduction d'un nouveau paradigme de modélisation (SSR) plus riche que le SE, accompagné d'un nouveau jeu de données de 40 000 échantillons couvrant des commandes complexes (congés, chanfreins, coques) et des opérations booléennes, aligné sur les besoins industriels.
Mécanisme CapType : Une solution ingénieuse pour résoudre le problème de référence des primitives topologiques dans les modèles paramétriques, permettant la génération de géométries complexes.
Stratégie de Feedback Visuel Étape par Étape : Une méthode novatrice qui utilise les images intermédiaires et la logique CoT pour guider le VLM, surpassant les méthodes qui ne vérifient que le résultat final.

4. Résultats Expérimentaux

Les expériences ont été menées sur un jeu de données test de 500 modèles (différents du corpus d'entraînement) et comparées à des méthodes de fine-tuning (CAD-Llama) et d'autres approches sans entraînement (3D-PreMise, CADCodeVerify).

Performance de Génération : Seek-CAD surpasse toutes les méthodes de comparaison (y compris le fine-tuning) sur les métriques de précision géométrique :
- Chamfer Distance (CD) : 0.1979 (meilleur score).
- Hausdorff Distance (HD) : 0.5566.
- Intersection over Ground Truth (IoGT) : 0.7226.
- G-Score (Alignement texte-image) : 3.5185.
Efficacité du Réfinement : L'ajout d'une seule itération de rétroaction visuelle améliore significativement la précision géométrique et la fidélité textuelle par rapport à la génération initiale. Deux itérations apportent des gains marginaux mais augmentent le taux d'échec de compilation, justifiant l'arrêt à une itération.
Robustesse : Le modèle maintient sa supériorité même sur le jeu de données DeepCAD (paradigme SE), prouvant qu'il n'est pas dépendant uniquement de son propre jeu de données SSR.
Capacité d'Édition : Le système permet des modifications itératives complexes (ajout, suppression, mise à l'échelle) via des dialogues naturels, démontrant une compréhension sémantique profonde.

5. Signification et Impact

L'article Seek-CAD représente une avancée majeure dans le domaine de la conception assistée par ordinateur générative :

Démocratisation de l'IA pour le CAD : En éliminant le besoin de fine-tuning coûteux, il rend les capacités des LLM de pointe accessibles pour des tâches industrielles complexes.
Vers des Agents CAD Autonomes : L'intégration de la CoT et du feedback visuel étape par étape simule un processus de conception humain, permettant aux agents IA de "penser" et de "corriger" leur travail, ce qui est crucial pour la fiabilité des modèles industriels.
Nouveau Standard de Données : Le paradigme SSR et le jeu de données associé comblent le fossé entre les recherches académiques actuelles (souvent limitées à des formes simples) et les exigences réelles de l'industrie manufacturière.

En conclusion, Seek-CAD démontre qu'une approche sans entraînement, basée sur l'inférence locale et l'auto-réflexion visuelle, peut surpasser les modèles entraînés pour la génération de modèles CAD paramétriques complexes, ouvrant la voie à de nouveaux systèmes de conception intelligente.

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek