Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un robot (una red neuronal) que es experto en reconocer objetos, como un gato o una taza. Sabemos que si giras la taza o la cambias de color, el robot sigue sabiendo que es una taza. A esto le llamamos "invarianza": la capacidad de reconocer algo aunque cambie su apariencia.

El problema es que los científicos no saben exactamente hasta dónde puede cambiar esa taza antes de que el robot se confunda. ¿Puede cambiar de tamaño? ¿De textura? ¿De posición?

Este paper presenta una nueva herramienta llamada "Stretch-and-Squeeze" (Estirar y Apretar), o SnS por sus siglas. Aquí te explico cómo funciona con una analogía sencilla:

1. La analogía del "Juego de las Sillas Musicales"

Imagina que el robot tiene una "silla" especial para cada objeto (por ejemplo, una silla para "gatos"). Cuando ves una foto de un gato, esa silla se activa.

El objetivo: Queremos encontrar todas las fotos diferentes que hacen que esa silla se active, incluso si la foto parece muy distinta a la original.
El problema anterior: Antes, los científicos solo probaban cambios predefinidos, como girar la foto o cambiarle el brillo (como si solo pudieras mover la silla hacia la izquierda o hacia la derecha). Pero el robot podría aceptar cambios mucho más extraños que nadie se había imaginado.

2. ¿Cómo funciona SnS? (Estirar y Apretar)

SnS es como un juego de dos objetivos simultáneos que el robot debe resolver:

Estirar (Stretch): Toma una foto de referencia (un gato normal) y trata de cambiarla lo más posible en su "esencia interna" (hacerla parecer un gato alienígena, con otra textura, en otro ángulo, etc.).
Apretar (Squeeze): Al mismo tiempo, debe asegurarse de que, a pesar de esos cambios locos, la "silla del gato" del robot sigue activándose igual de fuerte.

En resumen: SnS busca la foto más "rara" y diferente posible que, sin embargo, el robot sigue reconociendo perfectamente como un gato.

3. Los hallazgos principales (Lo que descubrieron)

Usando esta herramienta, descubrieron cosas fascinantes:

El robot tiene "ojos" en diferentes niveles:
- Si cambiamos la foto en los niveles bajos (píxeles), el robot tolera cambios de brillo o contraste.
- Si cambiamos en niveles medios, tolera cambios de textura (como si el gato fuera de peluche en lugar de pelo).
- Si cambiamos en niveles altos, tolera cambios de pose o de tamaño (un gato saltando o muy lejos).
- Analogía: Es como si el robot tuviera capas de gafas. Las gafas de abajo solo notan el color, las de en medio notan la textura, y las de arriba notan la forma general. SnS nos permite saber qué gafas está usando el robot en cada momento.
Robots "entrenados para ser fuertes" vs. Robots normales:
- Los científicos probaron dos tipos de robots: los normales y los que han sido entrenados para resistir trucos maliciosos (llamados "robustos").
- Descubrimiento sorprendente: Los robots "robustos" son más fáciles de entender para los humanos cuando los cambios son simples (niveles bajos). Pero, ¡curiosamente! Cuando los cambios son muy complejos (niveles altos), los robots robustos se vuelven menos comprensibles para nosotros que los robots normales.
- ¿Qué significa esto? Que entrenar a un robot para que sea "fuerte" contra trucos no lo hace necesariamente más "humano" o inteligente en su forma de pensar sobre objetos complejos. A veces, se vuelve más extraño.

4. ¿Por qué es importante esto?

Para la Inteligencia Artificial: Nos ayuda a entender qué está pensando realmente el robot y dónde falla. Nos dice que no basta con que reconozca un objeto; debemos entender cómo lo reconoce.
Para la Neurociencia (Cerebro humano): Esta herramienta es genial porque no necesita ver el interior del cerebro (no necesita "gradientes" o fórmulas matemáticas complejas del cerebro). Funciona como un "cazador de respuestas".
- Analogía: Imagina que quieres saber qué le gusta a un perro sin poder hablar con él. Le muestras muchas fotos diferentes. Si el perro ladra, sabes que le gusta esa foto. SnS hace lo mismo con neuronas biológicas: prueba miles de variaciones hasta encontrar la que hace que la neurona "ladre" (se active), incluso si esa neurona es parte de un cerebro muy complejo donde no podemos ver todo el interior.

En conclusión

SnS es como un explorador que viaja al "paisaje invisible" de lo que ven las máquinas y los animales. En lugar de preguntar "¿qué ves?", pregunta: "¿Hasta dónde puedes cambiar esto antes de que dejes de verlo?".

Esto nos ayuda a construir robots más inteligentes y a entender mejor cómo funciona nuestro propio cerebro cuando reconocemos el mundo que nos rodea.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance", publicado en ICLR 2026.

1. Problema y Motivación

La comprensión de cómo los sistemas visuales (biológicos y artificiales) transforman imágenes en representaciones que soportan el reconocimiento de objetos es fundamental. Tradicionalmente, la visualización de características se ha centrado en encontrar las Imágenes Más Excitantes (MEIs) que activan máximamente una unidad neuronal. Sin embargo, las MEIs tienen una limitación crítica: solo revelan unos pocos ejemplos dentro del vasto conjunto de imágenes que activan una unidad, pero no exponen la variedad de transformaciones (la variedad o manifold de invariancia) bajo las cuales la respuesta de la unidad permanece invariante.

Los métodos existentes para estudiar la invariancia a menudo se basan en transformaciones predefinidas (como afines: rotación, escala) o en la optimización basada en gradientes (que requiere acceso a los pesos del modelo y no es aplicable a sistemas biológicos "caja negra"). Además, existe una brecha en la comprensión de cómo la robustez adversarial afecta la interpretabilidad de estas invariancias en diferentes niveles de la jerarquía visual.

2. Metodología: Stretch-and-Squeeze (SnS)

Los autores proponen SnS, un marco de trabajo libre de gradientes, agóstico al modelo y no sesgado, diseñado para caracterizar sistemáticamente las estímulos máximamente invariantes y la vulnerabilidad a perturbaciones adversarias.

Componentes Clave:

Modelo Generador ( $\psi$ ): Una red neuronal profunda preentrenada que mapea vectores latentes ( $\xi$ ) a imágenes RGB. Esto actúa como un prior sobre la distribución de imágenes naturales.
Red de Prueba ( $\phi$ ): El sistema visual (biológico o artificial) que se desea analizar.
Optimizador Libre de Gradientes: Se utiliza la estrategia evolutiva CMA-ES (Covariance Matrix Adaptation Evolutionary Strategy) para ajustar los códigos latentes.

Formulación de Optimización Bi-objetivo:

SnS formula la búsqueda como un problema de optimización multiobjetivo basado en dos funciones de pérdida:

Estirar (Stretch): Maximizar la distancia euclidiana entre la representación de la imagen candidata y la de una imagen de referencia ( $x_{ref}$ ) en una capa intermedia específica ( $\kappa$ ). Esto fuerza a la imagen a ser muy diferente en términos de características abstractas.
Apretar (Squeeze): Minimizar la distancia entre la activación de la unidad objetivo en una capa posterior ( $\ell$ ) y la activación de referencia. Esto asegura que la unidad siga respondiendo fuertemente (invariancia) o se silencie (adversarial).

Existen dos configuraciones principales:

Búsqueda de Invariancia ( $\Xi_{inv}$ ): Se busca maximizar la distancia en la representación de la capa $\kappa$ (estirar) mientras se mantiene la activación en la capa $\ell$ (apretar).
Búsqueda de Ejemplos Adversarios ( $\Xi_{adv}$ ): Se invierte el objetivo: minimizar la distancia en la representación de la capa $\kappa$ (mantener la imagen similar) mientras se maximiza el cambio en la activación de la unidad objetivo (silenciarla).

El algoritmo encuentra soluciones en la frente de Pareto, equilibrando estos objetivos conflictivos para descubrir transformaciones que no son obvias.

3. Contribuciones Clave

Marco Agnóstico y Sin Gradientes: SnS puede aplicarse a redes artificiales y neuronas biológicas sin necesidad de conocer sus pesos internos, lo que es crucial para la neurociencia donde solo se dispone de registros parciales de actividad.
Descubrimiento de Ejes de Variación Reales: A diferencia de las transformaciones afines predefinidas, SnS descubre los ejes de variación de imagen reales que una unidad tolera, explorando el manifold de invariancia más allá de lo "obvio".
Análisis Jerárquico: Permite estudiar la invariancia estirando representaciones en diferentes niveles (pixel, medio, alto) para revelar cómo cambia la naturaleza de la invariancia a través de la jerarquía visual.
Herramienta para Neurociencia: Demuestra que el método funciona incluso con representaciones submuestreadas (simulando registros de pocas neuronas), validando su uso en experimentos in vivo.

4. Resultados Principales

A. Eficacia en la Generación de Imágenes

SnS generó imágenes adversarias y invariantes efectivas en ResNet50.

Las imágenes adversarias suprimieron la activación de las unidades objetivo en un 111% (silenciamiento) con una distancia de píxeles moderada.
Las imágenes invariantes mantuvieron la activación (solo un 34% de reducción) pero se alejaron significativamente de la imagen de referencia en el espacio de píxeles (distancia L2 mucho mayor que las transformaciones afines estándar).

B. Invariancias Específicas por Capa

Al estirar las representaciones en diferentes niveles de ResNet50, SnS descubrió tipos de invariancia cualitativamente distintos:

Espacio de Píxeles (Bajo nivel): Cambios principalmente en luminancia y contraste.
Capas Medias: Cambios en textura y color.
Capas Profundas (Alto nivel): Cambios abstractos como vista (pose) o múltiples instancias de objetos.
Esto confirma que la invariancia se construye jerárquicamente.

C. Divergencia entre Redes Estándar y Robustas (L2)

Un hallazgo crucial es la diferencia en la interpretabilidad de las imágenes invariantes generadas para redes estándar frente a redes entrenadas para ser robustas (L2-robust):

Redes Robustas: Las imágenes invariantes generadas estirando capas bajas (píxeles) son altamente interpretables por humanos y otras redes. Sin embargo, al estirar capas profundas, la interpretabilidad disminuye drásticamente.
Redes Estándar: Muestran la tendencia opuesta; las imágenes invariantes de capas profundas son más interpretables que las de capas bajas.
Conclusión: El entrenamiento adversarial L2 mejora la alineación perceptual a nivel de píxeles, pero no aumenta la interpretabilidad de las invariancias de alto nivel; de hecho, las hace más idiosincrásicas y menos alineadas con la visión humana en las capas profundas.

D. Generalización a Otros Modelos

Vision Transformers (ViT): A diferencia de las CNNs, los ViTs mostraron invariancias menos jerárquicas; las imágenes estiradas en capas medias y altas fueron muy similares y altamente interpretables, sugiriendo una integración de información más global.
Robustez L-infinity: Las redes robustas con norma L-infinity mostraron invariancias altamente interpretables incluso en capas profundas, a diferencia de las L2.

5. Significado e Impacto

El trabajo de SnS representa un avance significativo tanto para la inteligencia artificial como para la neurociencia:

Puente entre IA y Neurociencia: Proporciona una herramienta práctica para inferir las propiedades de ajuste (tuning) de neuronas biológicas sin necesidad de un "gemelo digital" perfecto, superando la limitación de los métodos basados en gradientes.
Reevaluación de la Robustez: Cuestiona la noción de que el entrenamiento adversarial crea modelos perfectamente alineados con la visión humana. Muestra que, aunque las representaciones robustas son mejores a nivel de píxeles, sus invariancias de alto nivel pueden ser menos naturales y menos interpretables que las de modelos estándar.
Nueva Perspectiva sobre la Invariancia: Demuestra que la invariancia no es una propiedad monolítica, sino que varía cualitativa y cuantitativamente (dimensión intrínseca) a través de la jerarquía de procesamiento, y que los métodos tradicionales (como metamers o transformaciones fijas) solo capturan una fracción de este paisaje.

En resumen, SnS revela el "paisaje oculto" de la invariancia visual, ofreciendo una metodología robusta para mapear cómo los sistemas visuales generalizan y toleran variaciones en la entrada, con implicaciones profundas para el diseño de modelos de IA más robustos y la comprensión de la visión biológica.