Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes una caja negra (un modelo de inteligencia artificial) que toma una foto y te dice qué es: "Esto es un gato". Pero no sabes cómo funciona por dentro; no puedes ver sus "cerebros" ni sus reglas. Solo puedes darle fotos y ver qué respuesta te da.

El problema es que esta caja negra es frágil. Si le muestras una foto de un gato con un pequeño cambio invisible para el ojo humano (como un poco de ruido en los píxeles), la caja podría decirte: "¡Esto es un camión!". A esto se le llama ejemplo adversario.

Hasta ahora, los expertos intentaban encontrar estos trucos "a ciegas", probando millones de variaciones hasta que, por suerte, la caja se confundía. Pero no podían estar seguros de que siempre encontrarían un truco si existía uno. Era como buscar una aguja en un pajar sin garantía de éxito.

La Propuesta: "Contratar y Conquistar" (Contract and Conquer)

Los autores de este paper proponen un nuevo método llamado CAC (Contratar y Conquistar). Aquí te explico cómo funciona usando una analogía sencilla:

1. El Entrenador y el Alumno (Destilación de Conocimiento)

Imagina que quieres hackear a un maestro de ajedrez muy secreto (la caja negra), pero no puedes verlo ni hablar con él directamente.

El paso 1: En lugar de atacar al maestro directamente, contratas a un alumno (un modelo pequeño y simple) y le pides que observe al maestro.
Le muestras al alumno miles de partidas y le dices: "Mira, cuando el maestro ve esta posición, dice 'Jaque Mate'. Aprende a imitarlo".
Al principio, el alumno solo ve un pequeño grupo de posiciones cerca de la partida que quieres atacar.

2. El Ataque en el Entrenamiento (Ataque de Caja Blanca)

Ahora que tienes al alumno, que es transparente y sabes cómo piensa, le dices: "¡Ataca al maestro! Encuentra un movimiento que engañe al alumno".

Como el alumno es simple y tú ves todo su cerebro, puedes encontrar un movimiento perfecto para confundirlo fácilmente. Esto es un ataque de caja blanca (tienes todos los poderes).

3. La Prueba de Fuego (Transferencia)

Llevas ese movimiento engañoso al maestro secreto.

Escenario A: ¡Funciona! El maestro también se confunde y dice "Jaque Mate" en lugar de la jugada correcta. ¡Ganaste!
Escenario B: El maestro no se confunde. El alumno fue engañado, pero el maestro no.

4. La Estrategia de "Contracción" (El nombre del método)

Aquí es donde entra la parte genial del método. Si el maestro no se confundió, no tiras la toalla.

Contracción: En lugar de buscar en todo el tablero, decides que el próximo intento será más cerca de la posición original. "Ajustamos el radio de búsqueda".
Conquista: Le enseñas al alumno la nueva posición donde falló (la que le mostraste al maestro) y le dices: "Aprende esto también". El alumno se vuelve más inteligente y específico.
Repites el proceso: Atacas al alumno en un espacio más pequeño, lo entrenas mejor, y vuelves a probar con el maestro.

¿Por qué es especial? (La Garantía)

La mayoría de los métodos anteriores son como un cazador que dispara al azar esperando dar en el blanco. Podría tardar horas o nunca dar.

El método CAC es como un cazador con un mapa matemático que le dice: "Si sigues este camino, en un número máximo de pasos (digamos, 10 intentos), tienes la garantía matemática de que encontrarás el truco, siempre que el truco exista".

No es solo suerte; es una demostración lógica de que, al reducir el espacio de búsqueda y mejorar al "alumno" en cada paso, es imposible no encontrar la falla.

En resumen

El Problema: Las cajas negras de IA son vulnerables, pero probarlo sin acceso interno es difícil y no tiene garantías.
La Solución: Crear un "doble" (alumno) que imita a la caja negra, atacarlo fácilmente, y si falla, hacer el ataque más preciso y aprender de ese error.
El Resultado: Un método que no solo encuentra los trucos más rápido y con menos intentos que los actuales, sino que promete matemáticamente que encontrará el truco si existe.

Es como si, en lugar de intentar adivinar la contraseña de una caja fuerte a la suerte, tuvieras un sistema que te garantiza que, si la cerradura tiene un defecto, lo encontrarás en un número específico de intentos, haciéndolo cada vez más preciso.

Each language version is independently generated for its own context, not a direct translation.

1. El Problema

La robustez de las redes neuronales profundas frente a perturbaciones maliciosas (ataques adversarios) es crítica en aplicaciones de seguridad como la medicina o los sistemas autónomos.

Limitación de los ataques actuales: La mayoría de los métodos de ataque de "caja negra" (donde el atacante solo tiene acceso a las entradas y salidas del modelo, sin conocer sus pesos o gradientes) son empíricos. Aunque son efectivos en la práctica, no ofrecen garantías teóricas de que se encontrará un ejemplo adversario para un modelo específico en un número finito de iteraciones.
Limitación de las defensas certificadas: Los métodos de robustez certificada (que garantizan matemáticamente que no existen ejemplos adversarios en una vecindad) suelen ser computacionalmente costosos, requieren cambios en la arquitectura del modelo o degradan el rendimiento en datos benignos, lo que dificulta su implementación en servicios reales.
Necesidad regulatoria: Con la aparición de normativas como la Ley de IA de la UE, es necesario verificar el cumplimiento de estándares de robustez. Esto requiere herramientas capaces de demostrar que un modelo no es robusto (es decir, encontrar un ejemplo adversario) de manera fiable y con garantías.

2. Metodología: Contract And Conquer (CAC)

El autores proponen CAC, un método iterativo basado en la transferencia de ataques que combina la destilación de conocimiento y la contracción del espacio de búsqueda.

Principios Fundamentales

El método alterna dos procesos principales:

Destilación de Conocimiento (Knowledge Distillation): Entrenar un modelo sustituto (surrogate model) $S$ que imite las predicciones del modelo objetivo de caja negra $T$ .
Ataque de Caja Blanca: Ejecutar un ataque adversario sobre el modelo sustituto $S$ (al cual se tiene acceso total) para generar un ejemplo adversario.

Algoritmo Detallado

El proceso se desarrolla en iteraciones $j$ :

Preparación del Dataset de Destilación: Se construye un conjunto de datos $D(S)$ que incluye el punto objetivo $x$ y sus vecinos más cercanos de un conjunto de datos de retención, junto con sus etiquetas obtenidas de $T$ .
Entrenamiento del Sustituto: Se entrena un modelo $S$ (por ejemplo, ResNet-18) minimizando la pérdida de entropía cruzada sobre $D(S)$ , asegurando que $S$ replique las predicciones de $T$ con alta confianza en esa región.
Ataque en Caja Blanca: Se utiliza un ataque como MI-FGSM (Momentum Iterative Fast Gradient Sign Method) sobre $S$ dentro de un espacio de búsqueda inicial $U_\delta(x)$ (definido por una norma $L_\infty$ ) para encontrar un ejemplo adversario $z_j$ .
Verificación de Transferibilidad: Se consulta a $T$ $T$ con $z_j$ $z_{j}$ .
- Si $T(z_j) \neq T(x)$ , el ataque tiene éxito y el algoritmo termina.
- Si falla, se procede a la contracción:
  - Se añade el par $(z_j, T(z_j))$ al conjunto de datos de destilación $D(S)$ para mejorar la precisión del sustituto en esa zona.
  - Contracción del Espacio de Búsqueda: El espacio de búsqueda se reduce intersectando el espacio original con una vecindad más pequeña alrededor del último ejemplo fallido $z_j$ . La nueva distancia de contracción $\rho_j$ se define como $\rho_j = t \cdot \|z_j - z_{j-1}\|_\infty$ , donde $t \in (0,1)$ es un parámetro de contracción.
Repetición: Se entrena un nuevo modelo sustituto $S_{j+1}$ en el espacio contraído y se repite el proceso.

3. Contribuciones Clave

Nuevo Método Iterativo: Propuesta de CAC, un ataque basado en transferencia que utiliza la destilación de conocimiento sobre un conjunto de datos expansivo y un ataque de caja blanca en un espacio de búsqueda contrayente.
Garantía de Convergencia Demostrable: Bajo suposiciones moderadas (gradientes acotados en el modelo sustituto y capacidad de aprendizaje suficiente), los autores demuestran teóricamente que el método garantiza encontrar un ejemplo adversario para el modelo de caja negra en un número fijo de iteraciones. La cota superior de iteraciones depende de la relación entre el margen de confianza $\epsilon$ , el radio inicial $\delta$ y la norma del gradiente $\gamma$ .
Rendimiento Empírico Superior: Validación experimental que muestra que CAC supera a los métodos de última generación (SOTA) en términos de éxito de ataque y proximidad de los ejemplos adversarios al punto original.

4. Resultados Experimentales

Los autores evaluaron CAC en los conjuntos de datos ImageNet y CIFAR-10 contra modelos objetivo como ResNet-50 y Vision Transformers (ViT-B), tanto en escenarios de etiquetas duras (hard-label) como suaves (soft-label).

Tasa de Éxito (ASR): CAC alcanzó una tasa de éxito del 100% en casi todos los escenarios probados, superando o igualando a los métodos baselines (como HopSkipJump, Sign-OPT, GeoDA, SquareAttack, AdvViT).
Eficiencia de Consultas (AQN): CAC requirió un número promedio de consultas menor o comparable a los métodos más eficientes. Por ejemplo, en ImageNet con ResNet-50, CAC necesitó ~488 consultas frente a ~500-550 de otros métodos.
Calidad del Ejemplo Adversario (Distancia):
- CAC generó ejemplos adversarios significativamente más cercanos a los puntos objetivo que los métodos competidores.
- En términos de norma $L_\infty$ , CAC logró distancias promedio de 0.153 (ImageNet/ResNet) frente a 0.539 de HopSkipJump, indicando perturbaciones mucho más sutiles e imperceptibles.
- En norma $L_2$ , también mostró superioridad consistente.
Robustez ante Arquitecturas: El método funcionó eficazmente tanto en redes convolucionales (ResNet) como en arquitecturas basadas en transformadores (ViT), demostrando una buena generalización.

5. Significado e Impacto

Seguridad y Cumplimiento Normativo: CAC proporciona una herramienta crucial para auditar la robustez de sistemas de IA. Al ofrecer una garantía matemática de que se puede encontrar una vulnerabilidad si existe, permite a los desarrolladores y reguladores verificar el cumplimiento de estándares de seguridad sin depender únicamente de pruebas empíricas inciertas.
Equilibrio entre Teoría y Práctica: A diferencia de las defensas certificadas que son costosas, CAC ofrece una verificación de vulnerabilidad "barata" y escalable, manteniendo garantías teóricas.
Avance en Ataques de Caja Negra: El enfoque de contracción progresiva del espacio de búsqueda junto con la destilación de conocimiento representa un avance metodológico significativo, superando la limitación de los ataques de transferencia actuales que no garantizan el éxito.

En resumen, el papel presenta un marco teórico-práctico que cierra la brecha entre los ataques adversarios empíricos y las garantías formales, ofreciendo un método robusto para evaluar y certificar la vulnerabilidad de modelos de IA en entornos de caja negra.