Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Este trabajo propone nuevos métodos para la clasificación selectiva basados en el lema de Neyman-Pearson y las razones de verosimilitud, demostrando que superan a las técnicas existentes, especialmente en escenarios de desplazamiento de covariables donde las distribuciones de entrenamiento y prueba difieren.

Alvin Heng, Harold Soh

Publicado 2026-03-04
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres un chef experto en una cocina muy ocupada. Tu trabajo es preparar platos (hacer predicciones) para los clientes.

Normalmente, un modelo de inteligencia artificial (como tú) intenta cocinar todo, incluso si no tiene los ingredientes frescos o si la receta es muy extraña. A veces, el resultado es un desastre, pero el modelo sigue sirviendo el plato con total seguridad, diciendo: "¡Es el mejor plato del mundo!".

El clasificador selectivo es como un chef que tiene la sabiduría de decir: "Espera, no estoy seguro de que esto salga bien. Mejor no lo sirvo y le pido ayuda a un experto humano". Esto es lo que se llama "abstenerse".

Este paper, titulado "Saber cuándo abstenerse", propone una nueva forma de decidir cuándo ese chef debe decir "no sé" y cuándo puede cocinar con confianza, especialmente cuando los ingredientes cambian de repente (por ejemplo, si siempre cocinabas con tomates frescos y de repente te traen tomates congelados o enlatados).

Aquí tienes la explicación sencilla usando analogías:

1. El Problema: El Chef Confiado pero Engañoso

Antes, los chefs (modelos de IA) usaban reglas simples para decidir si cocinar o no.

  • La regla antigua: "Si el plato huele muy bien (alta probabilidad), lo sirvo. Si huele raro, lo sirvo igual porque tengo que trabajar".
  • El problema: A veces, un plato huele muy bien pero está envenenado (es una predicción errónea). O a veces, el chef se encuentra con un ingrediente nuevo (un cambio en los datos, llamado covariate shift) y su nariz (el modelo) no sabe cómo reaccionar, pero sigue cocinando a ciegas.

2. La Solución: La "Prueba de la Balanza" (Likelihood Ratios)

Los autores dicen: "Olvídate de las reglas simples. Vamos a usar una balanza mágica basada en una ley estadística antigua llamada Lema de Neyman-Pearson".

Imagina que tienes dos cajas de ingredientes:

  • Caja A (Correctos): Ingredientes que siempre han salido deliciosos cuando el chef los usó.
  • Caja B (Erróneos): Ingredientes que, aunque se veían bien, siempre terminaron en platos quemados o salados.

La balanza mágica compara el ingrediente nuevo que tienes en la mano:

  • ¿Se parece más a los ingredientes de la Caja A (éxito)?
  • ¿O se parece más a los de la Caja B (fracaso)?

Si el ingrediente se parece mucho a la Caja A, el chef cocina. Si se parece más a la Caja B, el chef dice: "¡Alto! Esto parece peligroso, abstengámonos".

3. Las Nuevas Herramientas: Dos Tipos de Detectores

El paper propone dos nuevas formas de usar esta balanza, que son más inteligentes que las anteriores:

A. El "Detective de Vecinos" (∆-KNN)

Imagina que tienes un mapa de la ciudad donde viven tus ingredientes.

  • Si un ingrediente nuevo llega y está rodeado de vecinos amigables (ingredientes que antes dieron buenos platos), el detective dice: "Seguro, es seguro".
  • Si el ingrediente nuevo está rodeado de vecinos problemáticos (ingredientes que antes dieron platos malos), el detective dice: "¡Peligro! Mejor no lo sirvas".
  • La innovación: Este detective no solo mira a los vecinos "buenos", sino que compara directamente: "¿Está más cerca de los buenos o de los malos?". Esta diferencia es lo que hace que funcione tan bien.

B. El "Analista de Formas" (∆-MDS)

Este es como un geometra. En lugar de contar vecinos, mira la forma y la distancia exacta en un espacio 3D.

  • Calcula la distancia matemática entre el nuevo ingrediente y el "centro" de los ingredientes buenos, y luego la distancia al "centro" de los malos.
  • Si la distancia a los buenos es mucho menor que a los malos, ¡a cocinar!

4. El Truco Maestro: La Combinación (El Chef y el Geometra)

Los autores descubrieron que, a veces, el "Detective de Vecinos" es muy bueno, pero otras veces el "Analista de Formas" (o incluso el viejo chef que usa su olfato/logits) es mejor.

¿Qué hacen? Los combinan.
Imagina que tienes un equipo de seguridad:

  1. Un guardia que mira las caras (Distancia).
  2. Un guardia que escucha las voces (Logits/Confianza).
    Si ambos dicen "Parece seguro", ¡adelante! Si uno duda, el sistema es más inteligente y decide abstenerse. Esta combinación es lo que gana todas las competiciones en sus pruebas.

5. ¿Por qué es importante esto? (El Cambio de Clima)

El paper se enfoca mucho en un escenario llamado Covariate Shift.

  • Ejemplo: Imagina que entrenaste a tu chef solo con fotos de gatos reales.
  • El cambio: De repente, te traen fotos de gatos dibujados, gatos en blanco y negro, o gatos con gafas de sol (cambios en la apariencia, pero siguen siendo gatos).
  • El resultado: Los métodos viejos se confunden y sirven platos malos. Los métodos nuevos (con la balanza mágica) dicen: "Esto es un gato, pero se ve diferente a lo que conozco. Voy a abstenerme hasta que un humano lo verifique".

En Resumen

Este paper nos enseña que para que la Inteligencia Artificial sea realmente confiable, no debe ser un robot que siempre dice "sí". Debe ser un sistema sabio que sabe cuándo no sabe.

Usando una "balanza estadística" que compara directamente lo que suele salir bien contra lo que suele salir mal, y combinando diferentes formas de medir la confianza, logramos que los modelos:

  1. Cometen menos errores.
  2. Saben cuándo pedir ayuda a un humano.
  3. Funcionan bien incluso cuando el mundo cambia (nuevos tipos de imágenes, textos, etc.).

Es como pasar de tener un chef que cocina a ciegas, a tener un chef con un detective de seguridad y un geometra en su equipo, asegurando que solo los platos perfectos lleguen a la mesa.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →