SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un detective muy inteligente (una Red Neuronal Profunda) al que has entrenado para reconocer cinco tipos de frutas: manzanas, peras, plátanos, uvas y naranjas.

El problema surge cuando, en la vida real, el detective ve algo que no es ninguna de esas frutas. Podría ser una sandía, un kiwi o incluso una piedra que parece una fruta.

En el mundo de la inteligencia artificial tradicional, si el detective no sabe qué es, se inventa una respuesta. Diría: "¡Eso es una manzana!" (aunque sea una piedra). Esto es peligroso, especialmente en cosas como diagnósticos médicos o coches autónomos.

Aquí es donde entra el SpHOR, el nuevo método que proponen los autores de este paper. Vamos a explicarlo con analogías sencillas.

1. El Problema: La "Trampa de la Familiaridad"

Imagina que el detective ha aprendido a reconocer las frutas basándose en el fondo de la foto (por ejemplo, todas las fotos de manzanas tienen un fondo verde).

Si le muestras una nueva fruta (una pera) pero con el mismo fondo verde, el detective pensará: "¡Ah, es una manzana!".
Esto se llama la "Trampa de la Familiaridad". El detective confunde lo nuevo con lo conocido porque se fija en detalles que no son importantes (el fondo) en lugar de en la esencia de la fruta.

2. La Solución: SpHOR (El Entrenamiento Especial)

Los autores crearon un nuevo método llamado SpHOR para entrenar al detective de una manera diferente, en dos etapas:

Etapa 1: Crear un "Globo Terráqueo" Perfecto (Aprendizaje de Representación)

En lugar de dejar que el detective aprenda de cualquier manera, SpHOR le obliga a organizar sus conocimientos en un globo terráqueo imaginario (matemáticamente, una esfera).

Analogía del Globo: Imagina que cada tipo de fruta (manzana, pera, etc.) tiene su propio "continente" en este globo.
Regla de Oro (Ortogonalidad): SpHOR le dice al detective: "¡Oye! Los continentes de las frutas deben estar muy separados entre sí, como si fueran polos opuestos en el globo. No pueden tocarse ni superponerse".
- ¿Por qué? Para que si aparece una fruta nueva, no se quede pegada a un continente existente. Si es nueva, caerá en el "océano" (el espacio vacío entre continentes), y el detective sabrá: "Esto no es ninguna fruta que conozco".
El Truco del "Mezclador" (Mixup): Durante el entrenamiento, el detective ve fotos "mezcladas". Imagina que le muestran una foto que es 50% manzana y 50% pera.
- Esto le enseña que el espacio entre la manzana y la pera es un "zona de transición". Si ve algo que está demasiado en medio o en un lugar raro, el detective aprende a decir: "Esto no encaja en ninguna categoría clara".

Etapa 2: El Inspector Final (Clasificador)

Una vez que el detective ha organizado perfectamente su globo terráqueo (donde cada fruta tiene su lugar claro y separado), congelamos esa parte del cerebro.

Luego, solo entrenamos a un pequeño "inspector" (el clasificador) para que lea las coordenadas en el globo y diga: "Esto es una manzana".
Si algo cae en el océano (el espacio abierto), el inspector dice: "¡Desconocido!".

3. ¿Por qué funciona tan bien?

El paper introduce dos reglas de oro para medir si el detective está aprendiendo bien:

Separación Angular (Distancia en el globo): ¿Están los continentes de las frutas lo suficientemente lejos unos de otros? SpHOR asegura que sí.
Separación de Tamaño (Norma): Las frutas conocidas siempre tienen un "tamaño" (distancia al centro del globo) muy similar. Si algo es muy grande o muy pequeño (fuera de lo normal), el detective sabe que es una intrusa.

4. Los Resultados: El Detective Supremo

Los autores probaron este método en bancos de datos muy difíciles (como distinguir entre miles de tipos de pájaros o aviones, donde las diferencias son muy sutiles).

El resultado: SpHOR es el mejor detective hasta la fecha.
La ventaja: No solo es mejor reconociendo lo que ya sabe, sino que es muy bueno detectando lo que NO sabe. En pruebas difíciles, mejoró la capacidad de detectar lo desconocido en un 5.1%, lo cual es una diferencia enorme en este campo.
Eficiencia: Además, es más rápido y eficiente que otros métodos, funcionando bien incluso si le das pocas fotos para entrenar.

En resumen

SpHOR es como enseñarle a un detective a dibujar un mapa mental perfecto donde cada cosa conocida tiene su propia isla separada por un mar inmenso. Cuando llega algo nuevo, en lugar de intentar adivinar en qué isla encaja (y equivocarse), el detective mira el mapa, ve que está en el mar, y dice con seguridad: "Esto es desconocido".

Esto es crucial para la seguridad, ya que evita que la inteligencia artificial se invente respuestas peligrosas cuando se encuentra con algo que nunca ha visto antes.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: SpHOR para Reconocimiento de Conjunto Abierto (OSR)

1. Planteamiento del Problema

El Reconocimiento de Conjunto Abierto (OSR, por sus siglas en inglés) es crucial en aplicaciones de seguridad crítica y del mundo real. A diferencia de la clasificación de conjunto cerrado, que asume que todas las clases de prueba fueron vistas durante el entrenamiento, el OSR debe identificar datos de entrada pertenecientes a clases desconocidas y etiquetarlos como "desconocidos", en lugar de asignarlos erróneamente a una clase conocida.

El desafío principal identificado por los autores es el "Trampa de la Familiaridad" (Familiarity Trap):

Las redes neuronales profundas (DNN) suelen aprender características compartidas (como texturas o fondos) en lugar de características específicas de la clase.
Esto hace que las clases desconocidas, especialmente aquellas con un desplazamiento semántico fino (similares a las conocidas pero diferentes), se mapeen cerca de las clases conocidas en el espacio latente.
La mayoría de los métodos actuales entrenan el extractor de características y el clasificador de forma conjunta, lo que resulta en representaciones que no están explícitamente estructuradas para manejar el "espacio abierto" (regiones reservadas para clases desconocidas).
Los enfoques existentes a menudo utilizan objetivos genéricos (como aprendizaje contrastivo supervisado) que no están diseñados específicamente para OSR.

2. Metodología: SpHOR

Los autores proponen SpHOR, un método de dos etapas que desacopla el aprendizaje de representaciones del entrenamiento del clasificador. El objetivo es moldear explícitamente el espacio de características antes de entrenar el clasificador.

Etapa 1: Aprendizaje de Representación Esférica
En esta etapa, el modelo aprende representaciones de características mediante tres innovaciones clave:

Incrustaciones de Etiquetas Ortogonales (Orthogonal Label Embeddings):
- Se imponen restricciones de ortogonalidad entre las incrustaciones de las etiquetas de clase ( $\mu_c$ ).
- Esto fuerza a que las características de cada clase ocupen subespacios lineales distintos en el espacio de alta dimensión, reduciendo la superposición y evitando que las clases desconocidas se confundan con las conocidas.
- Se utiliza un Regularizador de Ortogonalidad ( $R_{Ortho}$ ) para asegurar que las etiquetas sean ortogonales y uniformes.
Representaciones Esféricas y Distribuciones von Mises-Fisher (vMF):
- En lugar de usar un espacio euclidiano ilimitado (que aumenta el riesgo de espacio abierto), SpHOR normaliza las características ( $L2$ -normalización) para proyectarlas sobre una hiperesfera.
- Las clases se modelan como una mezcla de distribuciones von Mises-Fisher, que son análogas a las gaussianas en espacios esféricos.
- Esto permite un control matemático sobre la densidad de las clases mediante un factor de concentración ( $\kappa$ ).
Integración de Mixup y Suavizado de Etiquetas (Label Smoothing - LS):
- Se integran directamente en la etapa de aprendizaje de representaciones.
- Mixup: Crea muestras sintéticas ambiguas (combinaciones de clases) que ayudan al modelo a aprender a manejar el "espacio no específico de clase" o espacio abierto.
- Suavizado de Etiquetas: Suaviza las etiquetas one-hot para evitar la sobreconfianza.
- Pérdida vMFAL (von Mises-Fisher Alignment Loss): Una pérdida modificada que alinea las proyecciones de las características con las incrustaciones de etiquetas, promoviendo tanto la alineación (distancia entre ejemplos positivos) como la uniformidad (distribución de las características en la esfera).

Etapa 2: Entrenamiento del Clasificador

Una vez aprendidas las representaciones, el extractor de características se congela.
Se entrena un clasificador simple (una capa lineal) utilizando las características generadas, minimizando la pérdida de entropía cruzada estándar.
Esto es computacionalmente eficiente y evita que el clasificador distorsione la estructura del espacio de características aprendida en la Etapa 1.

Métricas de Evaluación Propuestas:
Para cuantificar la calidad de las representaciones, los autores introducen:

Separabilidad Angular (AS): Mide qué tan cerca están las muestras desconocidas de las clases conocidas en términos angulares. Un valor más bajo indica mejor separación.
Separabilidad de Norma (NS): Mide la capacidad de distinguir clases desconocidas basándose en la magnitud (norma) de las características.

3. Contribuciones Clave

Método de Entrenamiento Desacoplado: Propone una estrategia de dos etapas donde el aprendizaje de representaciones se optimiza explícitamente para OSR antes de entrenar el clasificador.
Diseño de Representación Específico: Combina incrustaciones ortogonales, restricciones esféricas (vMF) y técnicas de aumento de datos (Mixup/LS) dentro de un marco de aprendizaje supervisado.
Análisis Teórico y Métricas Nuevas: Demuestran analíticamente cómo la pérdida induce alineación y uniformidad, e introducen AS y NS para cuantificar la separabilidad de las clases.
Eficiencia Computacional: A diferencia de los métodos contrastivos que tienen complejidad cuadrática $O(B^2)$ , SpHOR tiene complejidad lineal $O(B \cdot C)$ , lo que lo hace robusto incluso con tamaños de lote pequeños.

4. Resultados Experimentales

El método fue evaluado en benchmarks de desplazamiento semántico (Fine-grained) y conjunto cerrado (Coarse-grained):

Semantic Shift Benchmark (SSB): Utiliza datasets de alta granularidad (CUB, Stanford Cars, FGVC-Aircraft).
- SpHOR logró resultados State-of-the-Art (SOTA) en AUROC y OSCR (Open Set Classification Rate).
- Mostró mejoras de hasta 5.1% en OSCR y 5.2% en AUROC en el benchmark SSB en comparación con métodos existentes.
- Fue robusto incluso sin pre-entrenamiento en ImageNet, manteniendo un rendimiento competitivo donde otros métodos caían drásticamente.
Legacy CNN-32 Benchmarks:
- En benchmarks más antiguos y de grano grueso (SVHN, CIFAR-10, Tiny-ImageNet), SpHOR superó consistentemente a métodos como MLS, SupCon y ARPL.
- Logró el mejor rendimiento promedio en AUROC en ambos conjuntos de pruebas Legacy A y B.
Robustez: El método demostró ser menos sensible a la elección de la regla de puntuación (scoring rule) y mantuvo un alto rendimiento en condiciones de "Hard splits" (clases desconocidas muy similares a las conocidas).

5. Significado e Impacto

El trabajo de SpHOR es significativo porque cambia el paradigma de OSR:

De la detección post-hoc al diseño de representaciones: En lugar de depender de umbrales de confianza o métodos generativos costosos, SpHOR demuestra que la clave del OSR reside en cómo se estructuran las representaciones de características desde el principio.
Solución a la Trampa de la Familiaridad: Al forzar la ortogonalidad y la uniformidad en una esfera, el modelo aprende a empujar las muestras ambiguas (que podrían ser desconocidas) hacia las regiones de "espacio abierto" entre las clases, reduciendo drásticamente los falsos positivos.
Eficiencia y Escalabilidad: Su baja complejidad computacional y su capacidad para funcionar con lotes pequeños lo hacen viable para entornos con recursos limitados y grandes números de clases.

En conclusión, SpHOR establece un nuevo estándar en el reconocimiento de conjunto abierto al demostrar que un aprendizaje de representaciones explícitamente diseñado, basado en geometría esférica y regularización ortogonal, supera a los enfoques tradicionales tanto en precisión de clasificación como en detección de anomalías semánticas.