OmniPatch: A Universal Adversarial Patch for ViT-CNN Cross-Architecture Transfer in Semantic Segmentation

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como una historia sobre cómo "engañar" a los ojos de un coche autónomo para que no vea lo que realmente hay en la carretera.

Aquí tienes la explicación de OmniPatch, traducida a un lenguaje sencillo y con analogías divertidas:

🚗 El Problema: Los Coches Autónomos y sus "Gafas"

Imagina que los coches autónomos tienen unos ojos muy inteligentes (llamados Redes Neuronales) que miran la carretera y dicen: "Eso es un peatón", "Eso es un semáforo", "Eso es una señal de stop".

El problema es que estos ojos son un poco ingenuos. Si pones un pequeño cartelito con un dibujo extraño en la calle, el coche puede confundirse y pensar que una señal de "Pare" es un "Círculo verde", lo cual podría causar un accidente.

Hasta ahora, los investigadores hacían dos cosas:

Opción A: Pintaban toda la carretera de colores locos (muy difícil de hacer en la vida real).
Opción B: Creaban un truco que solo funcionaba con un tipo de "gafas" específicas. Si el coche usaba otra marca de gafas, el truco no funcionaba.

🛡️ La Solución: "OmniPatch" (El Parche Universal)

Los autores de este paper (del Instituto Tecnológico de Roorkee, India) crearon OmniPatch.

La analogía: Imagina que tienes dos tipos de detectives:

Detective CNN: Es como un detective que mira los detalles pequeños, como si estuviera mirando a través de una lupa (mira pedacitos de la imagen).
Detective ViT: Es como un detective que mira todo el panorama de golpe, conectando puntos lejanos (mira la imagen entera de una vez).

El gran reto era: ¿Cómo hacemos un truco que engañe a AMBOS detectives al mismo tiempo?

🎯 ¿Cómo funciona el truco? (Paso a paso)

1. Encontrar el "Punto Débil" (La Zona Sensible)

Primero, usan al Detective ViT (el que ve todo el panorama) para buscar en la imagen dónde está más confundido o inseguro.

Analogía: Es como si el detective dijera: "No estoy muy seguro de si esto es un poste o un árbol".
OmniPatch pone su "parche" (un cuadrado con un patrón especial) justo en esa zona de confusión. Como el detective ViT es muy sensible, si lo confundes ahí, el daño es grande.

2. El Entrenamiento en Dos Actos

No entrenan el parche de una sola vez. Lo hacen en dos etapas, como un entrenador de gimnasio:

Acto 1 (Entrenar al ViT): Primero, hacen que el parche sea tan malo que el Detective ViT se equivoque estrepitosamente. El parche se vuelve un "genio del engaño" para este tipo de detector.
Acto 2 (El Equipo Mixto): Ahora, traen al Detective CNN al entrenamiento. Pero aquí hay un problema: lo que le gusta al Detective ViT a veces le molesta al CNN.
- Analogía: Imagina que el ViT quiere que el parche sea rojo y el CNN quiere que sea azul. Si los entrenas juntos, se pelean y el parche sale mal.
- La Magia: OmniPatch usa una técnica especial llamada "Alineación de Gradientes". Es como un árbitro que les dice a ambos detectives: "¡Dejen de pelear! Vamos a encontrar un movimiento que funcione para los dos". Logran que el parche engañe a ambos al mismo tiempo, aunque usen métodos de visión diferentes.

3. Los "Extras" (Regularizadores)

Además, le ponen al parche tres "condimentos" extra para que sea más efectivo:

Secuestro de Atención: Le dice al cerebro del coche: "¡Mira aquí! ¡Ignora todo lo demás!".
Romper Bordes: Hace que las líneas de los objetos (como el borde de un coche) se vean rotas y confusas.
Control de Ruido: Asegura que el parche no parezca una mancha de pintura aleatoria, sino algo que el ojo humano pueda tolerar un poco mejor (aunque sigue siendo visible).

📊 Los Resultados: ¿Funciona?

Probado en el famoso conjunto de datos Cityscapes (imágenes de calles reales):

Sin el parche, los coches reconocen las cosas muy bien (aprox. 86% de precisión).
Con un parche aleatorio, la precisión baja un poco.
Con OmniPatch: ¡La precisión se desploma! Los coches autónomos pierden hasta un 16% de su capacidad para entender la carretera.
Lo mejor: Funciona en coches que usan tecnología vieja (CNN) y en los nuevos (ViT). Es un "parche universal".

🚧 Limitaciones y Futuro

El paper admite algo honesto: El parche es visible.

Analogía: Es como poner un cartel gigante en la carretera para engañar al coche. Funciona, pero los humanos también lo verían y pensarían: "Oye, eso es raro".
El futuro: Quieren hacer parches que se camuflen mejor (como si fueran parte de la textura de la pared o del asfalto) y que funcionen con lluvia o sol, no solo en fotos perfectas de laboratorio.

💡 En Resumen

OmniPatch es como un "código maestro" que, al ser colocado estratégicamente en un punto vulnerable de la imagen, logra confundir a casi cualquier sistema de visión por computadora, ya sea que use tecnología antigua o nueva. Es una prueba de que, aunque los coches autónomos son inteligentes, todavía tienen puntos ciegos que podemos explotar (para entenderlos y hacerlos más seguros).

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: OmniPatch

1. Planteamiento del Problema

La segmentación semántica es fundamental para la conducción autónoma, pero los modelos desplegados son vulnerables a ataques adversarios de caja negra (donde no se conocen los pesos del modelo objetivo).

Limitaciones actuales: La mayoría de los métodos existentes generan perturbaciones a nivel de imagen completo (imprácticas para uso físico) o optimizan parches específicos para una sola arquitectura, lo que limita su transferibilidad.
Brecha de investigación: Existe poca investigación sobre parches adversarios físicos aplicables a la segmentación semántica que sean capaces de transferirse entre arquitecturas heterogéneas, específicamente entre Transformers de Visión (ViT) y Redes Neuronales Convolucionales (CNN).
Oportunidad: Los ViT son inherentemente más sensibles a ataques basados en parches debido a sus mecanismos de atención global, mientras que las CNN dependen más de sesgos locales. El objetivo es explotar esta diferencia para crear un parche universal.

2. Metodología: OmniPatch

OmniPatch es un marco de entrenamiento diseñado para aprender un parche adversario universal que generalice a través de imágenes y arquitecturas (ViT y CNN) sin acceso a los parámetros del modelo objetivo. El enfoque se basa en tres pilares:

A. Ubicación en Regiones Sensibles (Sensitive Region Placement)

Utiliza un ViT como modelo sustituto (surrogate) para calcular la entropía predictiva por clase en imágenes limpias.
Identifica la clase $c^*$ con la mayor incertidumbre global.
Aplica dilatación morfológica al mapa de máscaras de esta clase para expandir la región de colocación factible.
Muestrea la ubicación del parche utilizando un sesgo de entropía, priorizando píxeles dentro de las regiones de alta incertidumbre (top-p%), maximizando así la explotación de la brecha de sesgo inductivo entre ViT y CNN.

B. Entrenamiento en Dos Etapas
El marco utiliza un esquema de entrenamiento secuencial con modelos sustitutos ViT y CNN:

Etapa 1 (Solo ViT): Se optimiza el parche para desestabilizar las predicciones confiables del ViT. Se utiliza una función de pérdida de entropía cruzada ponderada ( $\gamma$ ) que prioriza los píxeles clasificados correctamente en la imagen limpia, forzando al modelo a cometer errores donde antes era seguro.
Etapa 2 (Ensamble ViT + CNN): Se extiende el entrenamiento a un conjunto heterogéneo.
- Se define un conjunto de "alta transferencia" ( $X$ ) basado en píxeles con un gran desplazamiento de distribución (medido por la Divergencia Jensen-Shannon entre logits limpios y adversarios).
- Se ponderan estos píxeles ( $\beta$ ) para maximizar la transferibilidad.
- Alineación de Gradientes: Para evitar que las actualizaciones de gradiente de modelos fundamentalmente diferentes (ViT vs. CNN) se interfieran destructivamente, se introduce una regularización que maximiza la similitud del coseno entre los gradientes de ambos sustitutos.

C. Pérdidas Auxiliares y Regularización
Se incorporan tres objetivos auxiliares para mejorar la efectividad y la estabilidad:

Secuestro de Atención (Attention Hijacking): Fuerza al ViT a priorizar el parche sobre la etiqueta verdadera en su representación interna.
Disrupción de Bordes: Invierte la pérdida de contorno para inducir fragmentación en los límites de la segmentación.
Variación Total (TV): Actúa como regularizador de ruido visual para mantener la apariencia del parche.
Expectation over Transformation (EOT): Se aplica en cada paso para simular variaciones físicas (escala, rotación, traslación).

3. Contribuciones Clave

OmniPatch: Primer marco que logra un parche adversario universal capaz de transferirse eficazmente entre arquitecturas ViT y CNN en tareas de segmentación semántica.
Estrategia de Posicionamiento Basada en Incertidumbre: Un nuevo esquema que coloca el parche en regiones donde el modelo sustituto ViT muestra mayor fragilidad, aprovechando la diferencia de sesgos inductivos.
Alineación de Gradientes para Ensamble Heterogéneo: Una técnica novedosa para resolver la interferencia destructiva en el entrenamiento de ensembles que combinan arquitecturas de visión muy diferentes.
Validación Exhaustiva: Demostración de la efectividad del ataque en múltiples modelos objetivo (PIDNet, BiSeNet, SegFormer) utilizando el conjunto de datos Cityscapes.

4. Resultados Experimentales

Los experimentos se realizaron en el conjunto de datos Cityscapes (escenas urbanas).

Configuración: Se entrenó un parche de $200 \times 200$ píxeles (1.9% del área) sobre la clase "poste" (la más sensible).
Rendimiento: OmniPatch superó significativamente a los parches aleatorios y a la línea base (Shekhar et al., 2025).
- En PIDNet-S, la caída de mIoU (Mean Intersection over Union) fue del 16.05% (de 0.8695 a 0.7299), comparado con una caída del 6.31% de la línea base.
- En PIDNet-L, la caída fue del 16.65%.
- En modelos BiSeNet y SegFormer, se observaron caídas consistentes del 10-12% en mIoU.
Ablaciones:
- La colocación en regiones sensibles superó a la colocación aleatoria o central.
- El uso de Divergencia JS en lugar de KL proporcionó un entrenamiento más estable, mejorando la caída de mIoU en un 1.84% adicional.
- La alineación de gradientes fue crucial, mejorando la transferencia en aproximadamente 4-5 puntos porcentuales de mIoU en comparación con entrenamientos sin esta restricción.

5. Significado y Limitaciones

Significado: Este trabajo demuestra que es posible crear amenazas físicas desplegables que comprometan sistemas de seguridad crítica (conducción autónoma) independientemente de la arquitectura subyacente (CNN o ViT). Esto subraya la necesidad urgente de desarrollar defensas robustas y agnósticas al modelo.
Limitaciones: El parche actual es visualmente obvio (ruido obtrusivo).
Trabajo Futuro: Se planea investigar técnicas de mezcla de texturas para ocultar el parche, adaptar el ataque a condiciones climáticas y de iluminación variables, y realizar pruebas físicas reales para una validación concluyente.

En conclusión, OmniPatch cierra la brecha entre las perturbaciones teóricas a nivel de imagen y los ataques adversarios físicos prácticos, estableciendo un nuevo estándar para evaluar la robustez de los sistemas de visión por computadora en entornos heterogéneos.