From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un guardia de seguridad muy inteligente (un modelo de Inteligencia Artificial) encargado de vigilar una fábrica. Su trabajo es doble:

Reconocer a los empleados legítimos (datos "dentro de la distribución" o ID).
Detectar a los intrusos (datos "fuera de la distribución" o OOD) y no dejarlos pasar.

El problema es que, hasta ahora, los expertos en IA han tratado estos dos trabajos como si fueran completamente separados. Unos se enfocan solo en que el guardia reconozca bien a los empleados, y otros solo en que detecte a los intrusos. Pero en la vida real, un sistema confiable necesita hacer ambas cosas a la vez.

Aquí te explico qué propone este paper de forma sencilla:

1. El Problema: "El guardia confiado pero equivocado"

Imagina que el guardia tiene dos problemas:

A veces deja entrar a un intruso porque se parece mucho a un empleado (un "intruso cercano").
Otras veces, confunde a un empleado legítimo con un intruso y lo expulsa, o peor aún, le da la bienvenida a un empleado pero le asigna el puesto equivocado (un error de clasificación).

Los métodos antiguos usaban una sola regla para decidir si alguien entra o no. Era como si el guardia tuviera un solo criterio: "Si se parece a un empleado, entra". Pero esto falla mucho cuando hay situaciones complejas.

2. La Solución: El "Sistema de Doble Chequeo" (Double Scoring)

Los autores proponen que el guardia debe usar dos filtros diferentes antes de tomar una decisión, como si tuviera dos inspectores trabajando en equipo:

Inspector 1 (El Detective de Intrusos): Mira al sujeto y dice: "¿Esto es un intruso o un empleado?". Si parece un intruso, lo detiene inmediatamente.
Inspector 2 (El Jefe de Confianza): Si el sujeto pasa al Inspector 1, este segundo inspector dice: "¿Estoy 100% seguro de que este empleado es quien dice ser?". Si no está seguro, mejor no le da el puesto.

La analogía de la puerta giratoria:
En lugar de una sola puerta que se abre o cierra, ahora tienes una puerta con dos cerraduras.

La primera cerradura (detecta intrusos) se abre solo si no eres un extraño obvio.
La segunda cerradura (confianza) se abre solo si estás muy seguro de tu identidad.
Si fallas en cualquiera de las dos, la puerta no se abre. Esto evita que entren intrusos disfrazados y evita que le des trabajo a alguien a quien no reconoces bien.

3. Las Nuevas Reglas del Juego (Las Métricas DS-F1 y DS-AURC)

Antes, para ver si un guardia era bueno, le daban una nota basada en una sola de sus habilidades. Esto era injusto: un guardia podía ser excelente detectando intrusos lejanos (como un alienígena) pero pésimo con intrusos que se parecen a los empleados (como un disfraz muy bueno).

Los autores crearon dos nuevas reglas de puntuación (métricas) que evalúan al guardia en su conjunto:

DS-F1: Es como buscar el "punto dulce" perfecto donde el guardia acierta la mayoría de las veces sin cometer errores graves.
DS-AURC: Es como medir qué tan bien se comporta el guardia en todas las situaciones posibles, no solo en la mejor.

¿Por qué es importante?
Imagina dos guardias:

Guardia A: Es un genio detectando alienígenas, pero confunde a los empleados con disfraces.
Guardia B: Es un poco menos genial con los alienígenas, pero nunca confunde a un empleado.
Los métodos antiguos podrían decir que el Guardia A es mejor. Pero con las nuevas reglas (DS-F1), descubrimos que el Guardia B es mucho más seguro y confiable para una fábrica real, porque evita errores costosos con los empleados.

4. El Nuevo Guardia: SURE+

Los autores no solo inventaron nuevas reglas, sino que entrenaron a un nuevo guardia llamado SURE+.
Este guardia es una versión mejorada de uno anterior (SURE). Lo hicieron más robusto usando trucos de entrenamiento inteligentes:

Entrenamiento con "disfraces": Le mostraron al guardia muchas variaciones de los empleados (cambio de luz, ruido, etc.) para que aprendiera a reconocerlos sin importar cómo se vieran.
Equipo estable: En lugar de confiar en un solo modelo, SURE+ combina las opiniones de varias versiones del modelo para tomar decisiones más estables.

El resultado: SURE+ es mucho más difícil de engañar. Funciona muy bien tanto para detectar intrusos obvios como para evitar errores con empleados que se ven un poco diferentes.

En Resumen

Este paper nos dice: "Dejen de evaluar la seguridad de la IA por partes. Un sistema realmente confiable debe saber cuándo NO sabe la respuesta (detectar intrusos) Y cuándo está inseguro sobre una respuesta correcta (predecir fallos)."

Han creado un nuevo sistema de evaluación (las métricas dobles) y un nuevo modelo de IA (SURE+) que actúa como un guardia de seguridad de élite: no solo rechaza a los extraños, sino que también duda antes de cometer errores con los suyos, haciendo que la Inteligencia Artificial sea mucho más segura para el mundo real.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "From Misclassifications to Outliers: Joint Reliability Assessment in Classification", presentado para IEEE Transactions on Pattern Analysis and Machine Intelligence.

1. El Problema

La implementación de clasificadores de aprendizaje automático en entornos del mundo real (especialmente en dominios críticos para la seguridad) requiere más que una alta precisión en el conjunto de entrenamiento. Un sistema fiable debe ser capaz de:

Detectar entradas fuera de distribución (OOD): Identificar datos que se desvían de la distribución de entrenamiento y no deben ser confiados.
Predecir fallos dentro de la distribución (ID): Anticipar cuándo el modelo cometerá un error en datos que sí pertenecen a la distribución conocida, asignando baja confianza a esas predicciones.

La brecha actual: La mayoría de las investigaciones anteriores tratan la detección de OOD y la predicción de fallos como problemas separados e independientes. Sin embargo, en la práctica, un sistema debe manejar ambos simultáneamente. Evaluarlos por separado puede llevar a conclusiones engañosas; un modelo puede ser excelente detectando OOD pero pobre en predecir sus propios errores en datos ID, o viceversa. Además, las métricas de evaluación existentes suelen basarse en una única función de puntuación y umbral, lo que no captura la complejidad de un sistema que debe tomar decisiones binarias sobre la aceptación de una predicción basándose en múltiples criterios.

2. Metodología Propuesta

Los autores proponen un enfoque unificado que integra la detección de OOD y la predicción de fallos mediante un sistema de doble puntuación (Double Scoring).

A. Marco de Evaluación Unificado: DS-F1 y DS-AURC

En lugar de usar una sola función de puntuación, el marco propone dos funciones de puntuación con sus respectivos umbrales:

$s_{OOD}(x)$ : Puntuación de detección de OOD (valores altos indican que la muestra es ID).
$s_{ID}(x)$ : Puntuación de confianza de clasificación ID (valores altos indican que la predicción es correcta).

Un predicción se acepta solo si supera ambos umbrales ( $\tau_{OOD}$ y $\tau_{ID}$ ). Esto divide las muestras en cuatro categorías: Aceptación Verdadera, Rechazo Verdadero, Aceptación Falsa (incluye OOD aceptados y errores ID aceptados) y Rechazo Falso.

Sobre esta base, se introducen dos nuevas métricas:

DS-F1 (Double Scoring F1): Busca el mejor punto de operación (par de umbrales) que maximice el F1-score, equilibrando la precisión y el recall en el espacio de doble puntuación. Generaliza el F1 tradicional al buscar en un espacio bidimensional de umbrales en lugar de uno unidimensional.
DS-AURC (Double Scoring Area Under the Risk-Coverage Curve): Evalúa el rendimiento del sistema a través de todo el rango de posibles umbrales. Define el "riesgo selectivo" considerando tanto los errores de clasificación ID aceptados como las muestras OOD aceptadas. DS-AURC selecciona el riesgo mínimo posible para cada nivel de cobertura, proporcionando un límite optimista del rendimiento.

Propiedades clave: Estas métricas garantizan que el uso de doble puntuación nunca empeore los resultados en comparación con la puntuación única (DS-F1 $\ge$ F1 estándar, DS-AURC $\le$ AURC estándar).

B. Nuevo Método de Entrenamiento: SURE+

Los autores extienden el clasificador fiable SURE para crear SURE+, un marco de entrenamiento unificado diseñado para mejorar la fiabilidad tanto en escenarios ID como OOD. SURE+ integra y refina los siguientes componentes:

Aumento de datos regularizado: Combina RegMixup (interpolación de características) y RegPixMix (perturbaciones a nivel de píxel) para mejorar la consistencia semántica y visual.
Optimización sensible a la nitidez (Sharpness-Aware): Utiliza F-SAM (una variante refinada de SAM) para encontrar mínimos planos, lo que mejora la calibración de la incertidumbre y la robustez.
Ensamblaje estable: Reemplaza el Stochastic Weight Averaging (SWA) con un Exponential Moving Average (EMA) de los parámetros, combinado con estadísticas de normalización por lotes re-normalizadas (Re-BN), para una mayor estabilidad bajo distribuciones mixtas.
Simplificación: Elimina componentes complejos de SURE original (como la pérdida de clasificación de corrección y el clasificador de similitud coseno) que aportaban mejoras marginales, resultando en un diseño más simple y generalizable.

3. Resultados Clave

Los experimentos se realizaron en el benchmark OpenOOD utilizando ResNet-18 en CIFAR-100 y ViT-L/16 (DINOv3) en ImageNet-1K.

Superioridad de la Doble Puntuación: El marco de doble puntuación supera consistentemente a los enfoques de puntuación única en todas las métricas (DS-F1 y DS-AURC) y en ambos escenarios (Near-OOD y Far-OOD).
Rendimiento de SURE+: SURE+ logra el mejor rendimiento en DS-F1 y DS-AURC, superando a SURE y a otros métodos de estado del arte (como Mixup, CutMix, etc.). En CIFAR-100, alcanza una precisión ID del 81.66% y en ImageNet-1K del 88.49%, manteniendo al mismo tiempo la mayor fiabilidad en la detección de errores y OOD.
Análisis de Near-OOD vs. Far-OOD: Se confirma que las puntuaciones OOD posteriores al entrenamiento (post-hoc) ofrecen ganancias notables en cambios de distribución "lejanos" (Far-OOD), pero solo beneficios marginales en cambios "cercanos" (Near-OOD), donde las muestras OOD son visualmente similares a las ID.
Consistencia: Las mejoras de SURE+ son robustas e independientes de la elección específica de la función de puntuación OOD utilizada (MSP, ReAct, VIM, etc.).

4. Contribuciones Principales

Perspectiva Unificada: Demostración de que la detección de OOD y la predicción de fallos son aspectos complementarios de la fiabilidad y que deben evaluarse conjuntamente para evitar conclusiones erróneas.
Nuevas Métricas: Introducción de DS-F1 y DS-AURC, métricas principistas que generalizan los estándares actuales y permiten una evaluación más fiel de la fiabilidad del sistema en escenarios mixtos.
Método SURE+: Propuesta de un clasificador fiable mejorado que integra avances recientes en detección de OOD y predicción de fallos, logrando un estado del arte en fiabilidad.
Guía Práctica: El trabajo ofrece directrices prácticas para el despliegue de modelos robustos, destacando la necesidad de evaluar sistemas bajo la coexistencia de datos ID y OOD.

5. Significado e Impacto

Este trabajo establece un nuevo estándar para la evaluación de clasificadores confiables. Al pasar de una evaluación fragmentada a una unificada, permite a los investigadores y practicantes identificar modelos que son verdaderamente robustos para su despliegue en aplicaciones críticas (como detección de incendios o sistemas médicos), donde tanto los falsos positivos como los fallos en datos desconocidos tienen consecuencias graves. Además, al proporcionar SURE+, ofrecen una solución práctica y reproducible que supera las limitaciones de los enfoques actuales, sentando las bases para futuras investigaciones en IA confiable.

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

1. El Problema: "El guardia confiado pero equivocado"

2. La Solución: El "Sistema de Doble Chequeo" (Double Scoring)

3. Las Nuevas Reglas del Juego (Las Métricas DS-F1 y DS-AURC)

4. El Nuevo Guardia: SURE+

En Resumen

1. El Problema

2. Metodología Propuesta

A. Marco de Evaluación Unificado: DS-F1 y DS-AURC

B. Nuevo Método de Entrenamiento: SURE+

3. Resultados Clave

4. Contribuciones Principales

5. Significado e Impacto

Más como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions