Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un chef experto en una cocina muy ocupada. Tu trabajo es preparar platos (hacer predicciones) para los clientes.

Normalmente, un modelo de inteligencia artificial (como tú) intenta cocinar todo, incluso si no tiene los ingredientes frescos o si la receta es muy extraña. A veces, el resultado es un desastre, pero el modelo sigue sirviendo el plato con total seguridad, diciendo: "¡Es el mejor plato del mundo!".

El clasificador selectivo es como un chef que tiene la sabiduría de decir: "Espera, no estoy seguro de que esto salga bien. Mejor no lo sirvo y le pido ayuda a un experto humano". Esto es lo que se llama "abstenerse".

Este paper, titulado "Saber cuándo abstenerse", propone una nueva forma de decidir cuándo ese chef debe decir "no sé" y cuándo puede cocinar con confianza, especialmente cuando los ingredientes cambian de repente (por ejemplo, si siempre cocinabas con tomates frescos y de repente te traen tomates congelados o enlatados).

Aquí tienes la explicación sencilla usando analogías:

1. El Problema: El Chef Confiado pero Engañoso

Antes, los chefs (modelos de IA) usaban reglas simples para decidir si cocinar o no.

La regla antigua: "Si el plato huele muy bien (alta probabilidad), lo sirvo. Si huele raro, lo sirvo igual porque tengo que trabajar".
El problema: A veces, un plato huele muy bien pero está envenenado (es una predicción errónea). O a veces, el chef se encuentra con un ingrediente nuevo (un cambio en los datos, llamado covariate shift) y su nariz (el modelo) no sabe cómo reaccionar, pero sigue cocinando a ciegas.

2. La Solución: La "Prueba de la Balanza" (Likelihood Ratios)

Los autores dicen: "Olvídate de las reglas simples. Vamos a usar una balanza mágica basada en una ley estadística antigua llamada Lema de Neyman-Pearson".

Imagina que tienes dos cajas de ingredientes:

Caja A (Correctos): Ingredientes que siempre han salido deliciosos cuando el chef los usó.
Caja B (Erróneos): Ingredientes que, aunque se veían bien, siempre terminaron en platos quemados o salados.

La balanza mágica compara el ingrediente nuevo que tienes en la mano:

¿Se parece más a los ingredientes de la Caja A (éxito)?
¿O se parece más a los de la Caja B (fracaso)?

Si el ingrediente se parece mucho a la Caja A, el chef cocina. Si se parece más a la Caja B, el chef dice: "¡Alto! Esto parece peligroso, abstengámonos".

3. Las Nuevas Herramientas: Dos Tipos de Detectores

El paper propone dos nuevas formas de usar esta balanza, que son más inteligentes que las anteriores:

A. El "Detective de Vecinos" (∆-KNN)

Imagina que tienes un mapa de la ciudad donde viven tus ingredientes.

Si un ingrediente nuevo llega y está rodeado de vecinos amigables (ingredientes que antes dieron buenos platos), el detective dice: "Seguro, es seguro".
Si el ingrediente nuevo está rodeado de vecinos problemáticos (ingredientes que antes dieron platos malos), el detective dice: "¡Peligro! Mejor no lo sirvas".
La innovación: Este detective no solo mira a los vecinos "buenos", sino que compara directamente: "¿Está más cerca de los buenos o de los malos?". Esta diferencia es lo que hace que funcione tan bien.

B. El "Analista de Formas" (∆-MDS)

Este es como un geometra. En lugar de contar vecinos, mira la forma y la distancia exacta en un espacio 3D.

Calcula la distancia matemática entre el nuevo ingrediente y el "centro" de los ingredientes buenos, y luego la distancia al "centro" de los malos.
Si la distancia a los buenos es mucho menor que a los malos, ¡a cocinar!

4. El Truco Maestro: La Combinación (El Chef y el Geometra)

Los autores descubrieron que, a veces, el "Detective de Vecinos" es muy bueno, pero otras veces el "Analista de Formas" (o incluso el viejo chef que usa su olfato/logits) es mejor.

¿Qué hacen? Los combinan.
Imagina que tienes un equipo de seguridad:

Un guardia que mira las caras (Distancia).
Un guardia que escucha las voces (Logits/Confianza).
Si ambos dicen "Parece seguro", ¡adelante! Si uno duda, el sistema es más inteligente y decide abstenerse. Esta combinación es lo que gana todas las competiciones en sus pruebas.

5. ¿Por qué es importante esto? (El Cambio de Clima)

El paper se enfoca mucho en un escenario llamado Covariate Shift.

Ejemplo: Imagina que entrenaste a tu chef solo con fotos de gatos reales.
El cambio: De repente, te traen fotos de gatos dibujados, gatos en blanco y negro, o gatos con gafas de sol (cambios en la apariencia, pero siguen siendo gatos).
El resultado: Los métodos viejos se confunden y sirven platos malos. Los métodos nuevos (con la balanza mágica) dicen: "Esto es un gato, pero se ve diferente a lo que conozco. Voy a abstenerme hasta que un humano lo verifique".

En Resumen

Este paper nos enseña que para que la Inteligencia Artificial sea realmente confiable, no debe ser un robot que siempre dice "sí". Debe ser un sistema sabio que sabe cuándo no sabe.

Usando una "balanza estadística" que compara directamente lo que suele salir bien contra lo que suele salir mal, y combinando diferentes formas de medir la confianza, logramos que los modelos:

Cometen menos errores.
Saben cuándo pedir ayuda a un humano.
Funcionan bien incluso cuando el mundo cambia (nuevos tipos de imágenes, textos, etc.).

Es como pasar de tener un chef que cocina a ciegas, a tener un chef con un detective de seguridad y un geometra en su equipo, asegurando que solo los platos perfectos lleguen a la mesa.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Know When to Abstain: Optimal Selective Classification with Likelihood Ratios" (Saber cuándo abstenerse: Clasificación selectiva óptima con relaciones de verosimilitud), publicado en ICLR 2026.

1. El Problema

La clasificación selectiva busca mejorar la fiabilidad de los modelos de aprendizaje automático permitiendo que estos se abstengan de hacer predicciones cuando la incertidumbre es alta, delegando casos ambiguos a expertos humanos. Sin embargo, existen dos brechas importantes en la literatura actual:

Falta de guía principista: Aunque existen resultados teóricos fundamentales (como el de Chow, 1970), no hay una guía general y rigurosa para diseñar funciones de selección efectivas en redes neuronales profundas modernas.
Déficit en el estudio de Covariate Shift: La mayoría de las evaluaciones asumen que los datos de prueba siguen la misma distribución que los de entrenamiento (i.i.d.). Pocos trabajos abordan la covariate shift (desplazamiento de covariables), donde la distribución de entrada $p(x)$ cambia (ej. fotos vs. dibujos de gatos), pero el espacio de etiquetas $p(y)$ permanece igual. Este escenario es crítico en aplicaciones modernas como los Modelos de Lenguaje y Visión (VLMs), donde los cambios en la distribución suelen ser de covariables y no semánticos.

2. Metodología

Los autores proponen un nuevo marco teórico basado en el Lema de Neyman-Pearson, un resultado clásico de la estadística que define la regla de rechazo óptima entre dos hipótesis como una prueba de relación de verosimilitud (Likelihood Ratio Test).

Marco Teórico

Hipótesis: Se formula la selección como un problema de prueba de hipótesis binaria:
- $H_0$ : El clasificador hace una predicción correcta.
- $H_1$ : El clasificador hace una predicción incorrecta.
Optimalidad: Según el Lema de Neyman-Pearson, la función de puntuación óptima para decidir si aceptar o rechazar una entrada es la relación de verosimilitud:
$s(x) = \frac{p_c(x)}{p_w(x)}$
Donde $p_c(x)$ es la densidad de probabilidad de que la entrada $x$ provenga de muestras clasificadas correctamente, y $p_w(x)$ de muestras clasificadas incorrectamente.
Unificación: El trabajo demuestra que muchas puntuaciones existentes (como MSP y RLog) son aproximaciones o transformaciones monótonas de esta relación de verosimilitud bajo ciertas suposiciones.

Nuevos Métodos Propuestos

Para abordar la covariate shift sin depender de la calibración del clasificador (que a menudo falla en redes profundas), proponen dos métodos basados en distancias que estiman explícitamente las distribuciones de aciertos y errores:

$\Delta$ -MDS (Mahalanobis Distance):
- En lugar de estimar una sola distribución por clase, mantiene dos conjuntos de estadísticas por clase: una para las muestras de entrenamiento clasificadas correctamente ( $\mu^c, \Sigma^c$ ) y otra para las clasificadas incorrectamente ( $\mu^w, \Sigma^w$ ).
- La puntuación es la diferencia entre la distancia de Mahalanobis a la distribución de aciertos y la de errores:
  $s_{\Delta\text{-MDS}}(x) = D_{MDS}(x; \mu^c, \Sigma^c) - D_{MDS}(x; \mu^w, \Sigma^w)$
- Se demuestra que es óptimo bajo la suposición de que las características siguen distribuciones gaussianas.
$\Delta$ -KNN (k-Nearest Neighbors):
- Un método no paramétrico que calcula la diferencia en las distancias logarítmicas a los $k$ vecinos más cercanos en los conjuntos de características de aciertos y errores.
- Se demuestra que es asintóticamente óptimo sin asumir una forma paramétrica específica para las distribuciones.
Combinación Lineal:
- Proponen combinar linealmente las puntuaciones basadas en distancia (como $\Delta$ -MDS o $\Delta$ -KNN) con puntuaciones basadas en logits (como RLog). Teóricamente, esta combinación sigue siendo óptima bajo ciertas condiciones de "producto inclinado" de las densidades.

3. Contribuciones Clave

Nuevo Marco Teórico: Introducen por primera vez un marco basado en el Lema de Neyman-Pearson para definir la optimalidad en la clasificación selectiva mediante pruebas de relación de verosimilitud.
Unificación y Nuevos Selectores: Unifican métodos existentes bajo este marco y proponen dos nuevos selectores ( $\Delta$ -MDS y $\Delta$ -KNN) que explotan explícitamente la distinción entre muestras correctas e incorrectas en el espacio de características.
Evaluación Exhaustiva en Covariate Shift: Realizan una evaluación rigurosa bajo desplazamientos de distribución (covariate y semánticos) en tareas de visión y lenguaje, demostrando superioridad tanto en modelos supervisados tradicionales como en VLMs potentes (como CLIP).

4. Resultados Experimentales

Los autores evaluaron sus métodos en una amplia gama de benchmarks:

Visión: ImageNet-1K y sus variantes con covariate shift (ImageNet-R, ImageNet-A, ObjectNet, ImageNet-V2, ImageNet-Sketch, ImageNet-C).
Lenguaje: Amazon Reviews.
Modelos: CLIP (Zero-shot VLM), EVA (Supervisado) y DistilBERT.

Hallazgos principales:

Rendimiento Superior: Los métodos propuestos ( $\Delta$ -MDS, $\Delta$ -KNN y sus combinaciones) superan consistentemente a los baselines existentes (MSP, MaxLogit, Energy, MDS, KNN, RLog, SIRC) en términos de AURC (Área bajo la curva de Riesgo-Cobertura) y NAURC (Normalizado).
Robustez en Covariate Shift: La reducción en el riesgo selectivo es significativa (aprox. 50% de reducción en AURC promedio al pasar de MDS/KNN estándar a sus variantes $\Delta$ ).
Combinaciones Híbridas: La combinación lineal $\Delta$ -KNN-RLog (para CLIP) y $\Delta$ -MDS-RLog (para modelos supervisados como EVA) obtuvo los mejores resultados generales.
Eficiencia de Muestra: Los métodos son robustos incluso con cantidades muy pequeñas de datos de entrenamiento etiquetados (hasta 0.1% para $\Delta$ -KNN), lo que es crucial para escenarios de recursos limitados.

5. Significado e Impacto

Este trabajo es significativo por varias razones:

Cambio de Paradigma: Mueve el diseño de selectores de enfoques heurísticos a un fundamento estadístico riguroso (Neyman-Pearson), proporcionando garantías teóricas de optimalidad.
Enfoque en Covariate Shift: Aborda un problema real y subexplorado en la industria. A diferencia de los cambios semánticos (nuevas clases), los cambios de covariables son comunes en el despliegue de modelos (ej. cambios de iluminación, estilo artístico, ruido), y los métodos propuestos son particularmente efectivos en estos escenarios.
Aplicabilidad General: La metodología es agnóstica al modelo y funciona bien tanto en arquitecturas tradicionales supervisadas como en modelos fundacionales de visión y lenguaje (VLMs), lo que la hace altamente relevante para la IA moderna.
Reproducibilidad: El código está disponible públicamente, y el artículo incluye detalles completos de implementación y pruebas teóricas en el apéndice.

En conclusión, el artículo demuestra que utilizar la relación de verosimilitud entre aciertos y errores, estimada a través de distancias en el espacio de características, ofrece un mecanismo robusto y óptimo para mejorar la fiabilidad de los modelos de IA en condiciones de distribución cambiantes.