Autores originales: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Publicado 2026-05-15✓ Author reviewed ⓘ

📖 5 min de lectura🧠 Análisis profundo

CC BY 4.0

Autores originales: Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres el jefe de control de calidad en una fábrica masiva. Tu trabajo es detectar defectos diminutos en productos que bajan por una cinta transportadora. Por lo general, tienes un equipo de expertos que han estudiado miles de productos perfectos. Saben exactamente cómo debería verse un enchufe de pared "bueno", un trozo de tela o un frasco de mermelada. Si ven algo que no coincide con esa memoria perfecta, lo marcan como un defecto.

Sin embargo, hay un truco: la iluminación de la fábrica cambia constantemente. A veces es brillante, a veces tenue, a veces las sombras son extrañas. Esto confunde a los expertos porque el mismo producto perfecto se ve diferente bajo distintas luces. Podrían empezar a gritar "¡Defecto!" cuando en realidad es solo una sombra, o peor aún, podrían pasar por alto una grieta real porque la luz la está ocultando.

Este artículo presenta un sistema nuevo y superinteligente llamado SuperADD, diseñado para resolver exactamente este problema. Así es como funciona, desglosado en conceptos simples:

1. El superpoder "Sin Entrenamiento"

La mayoría de los sistemas de IA son como estudiantes que necesitan sentarse en un aula durante meses para aprender cómo se ve un defecto para cada producto específico. Si introduces un nuevo producto o cambias la iluminación, tienes que enviarlos de vuelta a la escuela para que vuelvan a aprender todo.

SuperADD es diferente. Es como un detective que no necesita estudiar el producto específico de antemano. Utiliza un "cerebro" preentrenado (llamado DINOv3) que ya ha visto millones de imágenes de internet. Sabe cómo se ven generalmente las texturas y formas "normales". Como no necesita ser reentrenado para cada nueva línea de fábrica, puede implementarse instantáneamente. Es una solución de "enchufar y usar".

2. La estrategia del "Banco de Memoria"

En lugar de intentar memorizar cada imagen perfecta individual, el sistema construye un Banco de Memoria.

Imagina que tomas una foto de un enchufe de pared perfecto.
El sistema divide esa foto en miles de piezas de rompecabezas diminutas (parches).
Guarda la "esencia" de esas piezas en una biblioteca gigante (el Banco de Memoria).
Cuando un nuevo producto baja por la línea, el sistema lo divide en las mismas piezas de rompecabezas y pregunta: "¿Tengo una coincidencia perfecta para esta pieza en mi biblioteca?"
Si una pieza no coincide con nada en la biblioteca, se marca como extraña (una anomalía).

3. El truco del "Rompecabezas superpuesto"

La versión original de este sistema tenía un problema: miraba el producto en bloques grandes y no superpuestos. Si un defecto ocurría justo en la línea entre dos bloques, el sistema podría pasarlo por alto o confundirse, como intentar leer una palabra que está cortada por la mitad por el lomo de un libro.

SuperADD soluciona esto utilizando parches superpuestos. Imagina mirar el producto a través de una ventana que se desliza, pero la ventana es tan grande que se superpone con la vista anterior. Esto asegura que, sin importar dónde esté un defecto, se vea claramente desde múltiples ángulos, haciendo que el sistema sea mucho más confiable.

4. El "Simulador de Iluminación"

Para prepararse para las luces cambiantes de la fábrica, el sistema no solo mira las fotos de entrenamiento tal como son. Artificialmente oscurece y aclara las imágenes durante su fase de configuración. Es como practicar para un examen estudiando en una habitación oscura, luego en una habitación brillante y luego en una habitación con luces parpadeantes. Esto entrena al sistema para ignorar los cambios de iluminación y enfocarse solo en la forma y textura reales del producto.

5. El "Cierre Morfológico" (El Pegamento)

A veces, el sistema detecta un defecto, pero el resultado parece una línea rota y punteada en lugar de una arañazo sólido. Es como ver un arañazo en un coche pero solo la parte central está resaltada.

Para solucionar esto, SuperADD utiliza un paso llamado Cierre Morfológico. Piensa en esto como un pegamento mágico. Observa los resaltados rotos y punteados y conecta suavemente los puntos para formar una forma sólida y suave. También rellena cualquier agujero diminuto dentro del área del defecto, asegurando que el informe final muestre una imagen completa y limpia del problema.

Los Resultados

El sistema fue probado en una competencia difícil (la Vía Industrial VAND 4.0) utilizando un conjunto de datos llamado MVTec AD 2, que incluye artículos complicados como latas de metal brillantes, frascos transparentes y pilas de arroz.

El Desafío: Los datos de prueba tenían condiciones de iluminación diferentes a los datos de entrenamiento, y el sistema tenía que funcionar en todos los diferentes tipos de objetos utilizando los mismos ajustes (sin ajuste personalizado para cada objeto).
El Resultado: SuperADD ganó. Logró las puntuaciones más altas entre todos los competidores.
- Identificó correctamente los defectos en Tela aproximadamente el 88% de las veces.
- Identificó correctamente los defectos en Arroz aproximadamente el 74% de las veces.
- Lo más importante, superó a los métodos anteriores, demostrando que no necesitas una IA compleja y entrenada a medida para cada producto individual para obtener grandes resultados.

Resumen

SuperADD es una forma inteligente, flexible y rápida de detectar defectos de fábrica sin necesidad de reentrenar la IA para cada nuevo producto o cambio de iluminación. Utiliza un cerebro preentrenado, observa los productos en piezas superpuestas para evitar perder detalles, practica con cambios de iluminación falsos para mantenerse resistente y usa "pegamento" para asegurar que el mapa final de defectos sea limpio y completo. Es una solución "talla única" que realmente encaja muy bien.

Resumen Técnico: SuperADD – Segmentación de Anomalías sin Entrenamiento y Agnóstica a la Clase

1. Declaración del Problema

El artículo aborda la Detección de Anomalías Visuales (AD) en la inspección industrial, centrándose específicamente en el desafío de los cambios de distribución causados por condiciones de adquisición variables (por ejemplo, cambios en la iluminación) entre el entrenamiento y el despliegue. El trabajo se sitúa dentro de la Pista Industrial VAND 4.0, que utiliza el conjunto de datos MVTec AD 2.

Las restricciones y desafíos clave incluyen:

Entorno No Supervisado: Los modelos se entrenan exclusivamente con imágenes normales (sin defectos).
Robustez: Los modelos deben mantener el rendimiento a pesar de cambios significativos en la apariencia (iluminación, variabilidad de textura) entre los conjuntos de entrenamiento y prueba.
Requisito Agnóstico a la Clase: A diferencia de iteraciones anteriores (VAND 3.0), donde eran comunes arquitecturas o hiperparámetros específicos por clase, el desafío exige una única arquitectura y configuración de hiperparámetros compartida para todas las clases de objetos, garantizando la viabilidad del despliegue y un esfuerzo de adaptación mínimo.
Evaluación: El rendimiento se mide mediante la puntuación F1 a nivel de píxel y el AU-ROC en particiones privadas de prueba (TESTpriv y TESTpriv,mix), donde la verdad fundamental está oculta para evitar el sobreajuste.

2. Metodología

El método propuesto, SuperADD, es una pipeline sin entrenamiento construida sobre el marco SuperAD, el cual a su vez está inspirado en PatchCore. Aprovecha un backbone de Transformador de Visión preentrenado congelado para extraer características y realiza la detección de valores atípicos por vecino más cercano sin actualizar los pesos del modelo.

2.1. Arquitectura y Extracción de Características

Backbone: Los autores reemplazan el backbone DINOv2 utilizado en SuperAD por DINOv3 (ViT-H+/16), aprovechando sus representaciones visuales preentrenadas superiores.
Incrustaciones de Múltiples Capas: Los vectores de características se extraen de cuatro capas intermedias (7, 15, 23 y 31) del transformador.
Construcción del Banco de Memoria: Se construye un banco de memoria de prototipos "normales" a partir de los datos de entrenamiento.

2.2. Modificaciones Técnicas Clave

El artículo introduce varias adaptaciones específicas para mejorar la robustez y la generalización:

Procesamiento de Parches Superpuestos:
- En lugar de procesar la imagen completa o baldosas no superpuestas, las imágenes de entrada se dividen en parches superpuestos ( $P=640$ , superposición $O=128$ ).
- Propósito: Esto reduce la sensibilidad a artefactos dependientes de la posición de la cuadrícula y previene falsas anomalías en regiones vacías o en los bordes de la imagen. Elimina la necesidad de relleno con ceros, lo cual puede crear incrustaciones de referencia poco realistas.
- Inferencia: Las predicciones redundantes en las regiones superpuestas se descartan, y las incrustaciones restantes se reensamblan en un mapa coherente.
Estrategia de Muestreo Refinada:
- Problema: El SuperAD original muestreaba 16 imágenes, lo cual no lograba eliminar vectores de características casi duplicados dentro de una imagen o a través de regiones similares.
- Solución: Los autores realizan el muestreo directamente sobre vectores de características utilizando un enfoque basado en k-vecinos más cercanos (k-NN).
- Mecanismo: Para cada vector candidato, se calcula el número de vecinos dentro de un umbral de distancia global. Se retienen los vectores con puntuaciones bajas (que se encuentran en regiones escasamente pobladas del espacio de características). Esto garantiza un banco de memoria compacto y diverso que cubre mejor la distribución de los datos mientras reduce el uso de memoria.
Aumento Basado en Intensidad:
- Durante el procesamiento de los datos de entrenamiento, los valores de píxel se escalan por un factor aleatorio muestreado uniformemente de $[0.8, 1.2]$ .
- Propósito: Simular tiempos de integración y condiciones de iluminación variables, mejorando así la robustez ante cambios de iluminación entre los datos de entrenamiento y prueba.
Umbralización y Post-procesamiento:
- Umbralización: En lugar de umbrales específicos por clase derivados de datos de prueba, se define un único umbral como una versión escalada (factor de ganancia 1.3–1.5) del percentil 95 de los valores del mapa de anomalías de los datos de entrenamiento.
- Cierre Morfológico: Se aplica un paso de cierre morfológico iterativo (16 iteraciones con elementos estructurantes de línea de radio 26 píxeles en varias orientaciones) para conectar defectos lineales fragmentados (por ejemplo, arañazos) y cerrar pequeños huecos.
- Relleno de Regiones: Un paso final rellena los huecos en la máscara binaria para garantizar la consistencia espacial, particularmente donde las anomalías cruzan los límites de los parches.

3. Contribuciones Clave

Los autores afirman las siguientes contribuciones:

Marco Agnóstico a la Clase: Una pipeline unificada que utiliza una única arquitectura e hiperparámetros para todas las clases de objetos, cumpliendo con las restricciones de VAND 4.0.
Muestreo Mejorado: Un método de muestreo en el espacio de características que mejora la cobertura de la distribución de datos y la eficiencia computacional en comparación con la selección a nivel de imagen.
Preprocesamiento por Parches: La introducción de parches superpuestos para mitigar artefactos dependientes de la posición y mejorar la generalización.
Post-procesamiento Robusto: La aplicación de un cierre morfológico iterativo y multi-orientado para generar mapas de anomalías espacialmente consistentes.
Robustez a la Iluminación: El uso de escalado de intensidad para simular cambios de iluminación durante el entrenamiento.
Mejora del Backbone: La integración exitosa de DINOv3 como extractor de características.

4. Resultados

El método fue evaluado en el conjunto de datos MVTec AD 2 a través de tres particiones: TESTpub, TESTpriv y TESTpriv,mix.

Métricas de Rendimiento:
- TESTpub: Logró una puntuación F1 media del 62.61% y un AU-ROC0.05 de 83.93%.
- TESTpriv: Logró una puntuación F1 media del 57.42%.
- TESTpriv,mix: Logró una puntuación F1 media del 54.35%.
Comparación:
- SuperADD superó al estado del arte anterior (ISVL de VAND 3.0), que obtuvo 53.81% en TESTpriv y 51.43% en TESTpriv,mix.
- También superó a otros métodos destacados del año anterior (RoBiS, ASEG) y a líneas base estándar como PatchCore y EfficientAD.
Rendimiento Específico por Clase:
- Se observó un alto rendimiento en Tela (88.47% F1 en TESTpriv) y Arroz (73.83% F1).
- El rendimiento fue menor en Lata (0.00% F1 en TESTpub, 11.59% en TESTpriv), atribuido a defectos finos apenas visibles al ojo humano.
- Enchufes de pared mostraron una caída significativa en el rendimiento en TESTpriv en comparación con TESTpub, probablemente debido a defectos más sutiles y una menor tolerancia a los falsos positivos en la verdad fundamental.

5. Significado y Afirmaciones

El artículo posiciona a SuperADD como una solución prácticamente desplegable para la detección de anomalías industriales. Su importancia radica en:

Eficiencia sin Entrenamiento: Al evitar el reentrenamiento del modelo, el método permite la integración rápida de nuevas clases de productos o cambios de diseño, un requisito crítico en entornos industriales dinámicos.
Generalización: El enfoque demuestra que una única configuración agnóstica a la clase puede manejar eficazmente diversos tipos de objetos (granel, texturizados, reflectantes, transparentes) y condiciones de iluminación variables sin ajuste por clase.
Robustez a los Cambios de Distribución: La combinación de DINOv3, aumento de intensidad y procesamiento por parches mitiga con éxito la degradación del rendimiento típicamente causada por cambios en las condiciones de adquisición.

Los autores reconocen limitaciones, como la dificultad para detectar partes faltantes (por ejemplo, piezas rotas) o arañazos muy finos en superficies reflectantes, pero enfatizan que el método localiza con éxito defectos pequeños en categorías como arroz y nueces, así como defectos a gran escala con alta coherencia. Se sugiere trabajo futuro para explorar bancos de memoria duales que incorporen anomalías sintéticas mediante modelos de difusión, aunque esto permanece fuera del alcance de la afirmación actual de no entrenamiento.

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track