cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un objeto físico en tus manos, como una taza de café, una pieza de un motor o incluso un juguete. Ahora, imagina que quieres crear una copia digital perfecta de ese objeto en una computadora, pero no solo una foto, sino un dibujo técnico editable (como los que usan los ingenieros para construir cosas reales).

Hasta ahora, hacer esto era como intentar adivinar la receta de un pastel solo viendo una foto borrosa: difícil y a menudo fallido.

Este paper presenta a Cadrille, un nuevo "chef" de inteligencia artificial que ha aprendido a convertir casi cualquier cosa (una foto, una nube de puntos 3D o una descripción escrita) en un código de computadora que dibuja el objeto perfecto.

Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: El "Traductor" que solo hablaba un idioma

Antes, existían programas que podían hacer esto, pero tenían un gran defecto:

Si le dabas puntos 3D (como una nube de polvo digital), funcionaba bien.
Si le dabas una foto, fallaba.
Si le dabas una descripción escrita ("haz una caja roja con un agujero"), no entendía nada.

Era como tener un traductor que solo hablaba francés. Si le hablabas en español, no hacía nada. Además, a veces el código que generaban estaba "roto" y no funcionaba.

2. La Solución: Cadrille, el Políglota

Cadrille es diferente. Es un modelo multimodal, lo que significa que es un políglota. Puede entender tres idiomas a la vez:

Puntos 3D (como escanear un objeto con un láser).
Imágenes (fotos tomadas con tu celular).
Texto (si le dices: "diseña una silla moderna").

Lo increíble es que no solo "ve" el objeto, sino que escribe el código de programación (en un lenguaje llamado Python/CadQuery) que un ingeniero podría usar para modificarlo después. ¡Es como si le dieras una foto y te devolviera el plano de construcción editable!

3. ¿Cómo aprendió? El entrenamiento en dos etapas

Para que Cadrille fuera tan bueno, los autores usaron una estrategia de entrenamiento muy inteligente, similar a cómo aprende un niño o un estudiante universitario:

Etapa 1: La Universidad (Aprendizaje Supervisado)

Primero, Cadrille estudió en una "biblioteca gigante" de millones de objetos generados por computadora.

La analogía: Imagina que le mostraron millones de planos de casas y les dijeron: "Mira esta foto de una casa, escribe el plano".
El resultado: Aprendió las reglas básicas y cómo convertir imágenes en planos. Pero, como los planos de la biblioteca eran "perfectos" y artificiales, a veces fallaba cuando veía objetos reales del mundo real (que tienen polvo, sombras y imperfecciones).

Etapa 2: El Entrenamiento de Alto Nivel (Aprendizaje por Refuerzo)

Aquí está la magia. En lugar de seguir estudiando libros, Cadrille empezó a practicar con un entrenador.

La analogía: Imagina que Cadrille intenta dibujar un objeto. El entrenador (un programa automático) le dice: "¡Ese dibujo está mal! La pared es muy fina, corrígelo". Cadrille lo intenta de nuevo, el entrenador le da una "puntuación" (recompensa) si lo hace bien y una "penalización" si falla.
La clave: A diferencia de otros métodos que usaban los mismos datos para estudiar y practicar, Cadrille usó datos "dificiles" y reales para practicar. Esto le enseñó a ser robusto. Aprendió a no romperse cuando el objeto tenía ruido o partes faltantes.

4. ¿Por qué es un gran avance?

Es el primero en ser "Todo en Uno": Antes, necesitabas un programa para fotos, otro para puntos 3D y otro para texto. Cadrille hace todo con un solo cerebro.
Es más preciso: En pruebas reales, Cadrille superó a todos los anteriores. Si le das una foto de un objeto real, genera un código que se parece mucho más al original que cualquier otro método.
No se rompe: Genera código que funciona casi el 100% de las veces. Los anteriores fallaban a menudo, generando códigos que la computadora no podía ejecutar.

En resumen

Cadrille es como un arquitecto digital súper rápido que puede tomar una foto de tu taza de café, una nube de puntos de un motor o una descripción tuya, y en segundos escribir el código exacto para que una computadora dibuje ese objeto en 3D, listo para ser modificado o fabricado.

Ha pasado de ser un estudiante que solo lee libros teóricos a ser un experto que aprende de la práctica real, logrando resultados que antes parecían imposibles. ¡Es un gran paso para democratizar el diseño y la ingeniería!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "CA DRILLE: MULTIMODAL CAD RECONSTRUCTION WITH REINFORCEMENT LEARNING", presentado en ICLR 2026.

1. Problema y Contexto

La Reconstrucción de Diseño Asistido por Computadora (CAD) busca generar modelos 3D editables y precisos a partir de datos de entrada (escaneos, imágenes o texto). Aunque el CAD es fundamental en la ingeniería, la creación manual requiere habilidades y tiempo.

Los desafíos principales identificados en el estado del arte son:

Limitación de Modalidades: La mayoría de los métodos existentes se especializan en una sola modalidad de entrada (nubes de puntos, imágenes o texto), lo que limita su generalización y robustez.
Calidad Multimodal: Los enfoques multimodales recientes (como CAD-MLLM o CAD-GPT) han demostrado ser significativamente inferiores a los métodos unimodales de vanguardia en términos de precisión geométrica.
Brecha de Generalización: Los modelos entrenados con datos generados proceduralmente a menudo fallan al transferirse a datos del mundo real (escaneos ruidosos), mientras que los conjuntos de datos manuales son pequeños y limitados.
Validez del Código: Generar código Python ejecutable que produzca modelos CAD válidos sin errores de sintaxis o topológicos sigue siendo un reto importante.

2. Metodología Propuesta: CA DRILLE

El autores proponen cadrille, un modelo basado en Modelos de Lenguaje Visuales (VLM) que unifica la reconstrucción de CAD a partir de tres modalidades: nubes de puntos, imágenes multivista y descripciones textuales. El modelo genera scripts de Python ejecutables (usando la biblioteca CadQuery) que reconstruyen la representación de límites (B-Rep) del objeto.

Arquitectura

Base: Se construye sobre un VLM preentrenado (Qwen2-VL-2B) que ya soporta texto e imágenes y puede generar código Python.
Procesamiento de Entradas:
- Texto: Se pasa a través de la capa de incrustación original.
- Imágenes: Se procesan con el codificador visual nativo.
- Nubes de Puntos: Se integran mediante una capa de proyección lineal entrenable que mapea los puntos 3D al espacio de incrustaciones del modelo, sin utilizar normales.

Pipeline de Entrenamiento de Dos Etapas

A diferencia de los métodos anteriores que entrenan Supervisión (SFT) y Aprendizaje por Refuerzo (RL) en los mismos datos, cadrille utiliza una estrategia diferenciada:

Ajuste Fino Supervisado (SFT):
- Se entrena en una escala masiva utilizando datos generados proceduralmente (conjunto de datos CAD-Recode, ~1 millón de modelos).
- Objetivo: Aprender a mapear las tres modalidades de entrada a secuencias de código Python. Esto permite que el modelo generalice bien en el dominio del CAD sintético.
- Se evita mezclar datos manuales en esta etapa para evitar inconsistencias en las secuencias de comandos entre datasets.
Ajuste Fino con Aprendizaje por Refuerzo (RL):
- Se utiliza una cantidad menor pero valiosa de datos manuales/realistas (DeepCAD, Fusion360, CC3D) que a menudo carecen de secuencias de CAD anotadas, pero sí tienen mallas 3D de referencia.
- Mecanismo: No se necesitan pares (entrada, código) para la supervisión directa. El modelo genera candidatos de código y se evalúa mediante una función de recompensa programática.
- Función de Recompensa ( $R(\tau)$ ): Combina la Intersección sobre Unión (IoU) entre el modelo generado y la malla de referencia (multiplicada por 10 para priorizar precisión) y una penalización por predicciones inválidas (código que no se ejecuta).
- Algoritmos: Se comparan y utilizan dos enfoques:
  - DPO (Direct Preference Optimization): Entrenamiento offline basado en preferencias entre pares de muestras.
  - Dr. CPPO: Un enfoque híbrido en línea que combina Dr. GRPO (sin modelo de referencia) y CPPO (selección de muestras con señal fuerte). Este método demostró ser superior, permitiendo un aprendizaje continuo con nuevas muestras generadas.

3. Contribuciones Clave

Primer Modelo Multimodal de Vanguardia: cadrille es el primer enfoque multimodal (puntos, imágenes, texto) que supera a los métodos unimodales de vanguardia en todas las modalidades simultáneamente.
Validación del RL en CAD: Son los primeros en demostrar que el ajuste fino con RL mejora significativamente la reconstrucción multimodal de CAD, especialmente en la validez del código generado.
Evaluación Exhaustiva: Logran resultados de vanguardia (SOTA) en 10 benchmarks a través de 3 modalidades y 4 conjuntos de datos (DeepCAD, Fusion360, CC3D, Omni-CAD), incluyendo un conjunto de datos del mundo real (CC3D).
Eficiencia en Inferencia: A diferencia de métodos anteriores que requieren muestreo en tiempo de prueba (generar 10+ candidatos para elegir el mejor), cadrille logra alta precisión con una sola inferencia gracias al entrenamiento con RL.

4. Resultados Experimentales

Los experimentos demuestran mejoras sustanciales en métricas clave:

Precisión (IoU y Chamfer Distance): cadrille establece nuevos récords en todos los conjuntos de datos. Por ejemplo, en el conjunto de datos real CC3D (nubes de puntos), mejora el IoU de 60.5% (CAD-Recode) a 67.9% y reduce la tasa de invalidez (IR) drásticamente.
Validez del Código (IR): La tasa de invalidez (porcentaje de scripts que fallan al ejecutarse) se reduce a niveles casi nulos (0.0% - 0.2%) tras el ajuste con RL, superando a los métodos basados en muestreo en tiempo de prueba.
Generalización: El modelo entrenado con datos sintéticos y refinado con RL se generaliza excepcionalmente bien a datos reales (CC3D) y a dominios no vistos durante el SFT (como Fusion360).
Comparativa Multimodal: En la reconstrucción basada en imágenes, cadrille supera a la combinación de métodos de vanguardia (LRM + CAD-Recode) y a otros modelos multimodales como CAD-MLLM, que quedan muy por detrás en precisión.

5. Significado e Impacto

El trabajo de cadrille representa un avance significativo en la democratización del diseño asistido por computadora:

Accesibilidad: Al aceptar texto, imágenes y nubes de puntos, permite a usuarios no expertos reconstruir modelos CAD a partir de diversas fuentes de datos.
Robustez en el Mundo Real: La capacidad de manejar escaneos ruidosos y piezas faltantes (como en CC3D) sin perder precisión geométrica es crucial para aplicaciones industriales de ingeniería inversa.
Paradigma de Entrenamiento: La estrategia de separar el entrenamiento masivo sintético (SFT) del refinamiento basado en preferencias con datos reales (RL) ofrece una nueva hoja de ruta para entrenar modelos generativos en dominios técnicos donde los datos anotados son escasos pero los datos sintéticos son abundantes.
Viabilidad Práctica: Al eliminar la necesidad de muestreo en tiempo de prueba (que multiplica el tiempo de inferencia), el modelo se vuelve viable para aplicaciones en tiempo real.

En resumen, cadrille demuestra que la combinación de modelos de lenguaje visuales, datos generados proceduralmente a gran escala y técnicas avanzadas de aprendizaje por refuerzo puede superar las limitaciones de los enfoques unimodales tradicionales, estableciendo un nuevo estándar para la reconstrucción de CAD.

cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

1. El Problema: El "Traductor" que solo hablaba un idioma

2. La Solución: Cadrille, el Políglota

3. ¿Cómo aprendió? El entrenamiento en dos etapas

Etapa 1: La Universidad (Aprendizaje Supervisado)

Etapa 2: El Entrenamiento de Alto Nivel (Aprendizaje por Refuerzo)

4. ¿Por qué es un gran avance?

En resumen

1. Problema y Contexto

2. Metodología Propuesta: CA DRILLE

Arquitectura

Pipeline de Entrenamiento de Dos Etapas

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank