HNPclassifier: An R Package for Hierarchical… — Explicación divulgativa

Autores originales: Lujia Yang, Che Shen, Shunan Yao, Lijia Wang

Publicado 2026-06-12

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Lujia Yang, Che Shen, Shunan Yao, Lijia Wang

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres un guardia de seguridad en un aeropuerto de alto riesgo. Tu trabajo es clasificar a los pasajeros en tres filas: VIPs (que necesitan atención inmediata y especial), Pasajeros Estándar (que necesitan un procesamiento normal) y Viajeros de Bajo Riesgo (que pueden pasar rápidamente).

En un sistema de clasificación normal, el objetivo es simplemente llevar a todos a la fila correcta lo más rápido posible. Si por error envías a un VIP a la fila de Bajo Riesgo, podrías ser simplemente un poco ineficiente. Pero en el mundo real, ese error podría ser desastroso.

Este artículo presenta una nueva herramienta llamada HNPclassifier (un paquete de R) diseñada específicamente para situaciones donde los errores tienen diferentes niveles de severidad. Está construida sobre el concepto de clasificación "Neyman-Pearson Jerárquica".

Así es como funciona, utilizando analogías sencillas:

1. El Problema: El "Deslizamiento hacia Abajo"

En muchos problemas del mundo real, las categorías no son solo diferentes; están ordenadas por importancia.

Médico: No detectar un diagnóstico de "Cáncer en Etapa 4" y llamarlo "Etapa 1" es un error terrible. Llamar a la "Etapa 1" "Etapa 2" es menos grave.
Calidad del Aire: Decirle a una ciudad con aire "Peligroso" que es "Moderado" es peligrooso.
Banca: Aprobar un préstamo para un prestatario de "Alto Riesgo" es un desastre.

El artículo llama a estos errores peligrosos "errores de infracclasificación". Es como resbalar en una escalera: mover un elemento de alta prioridad a un contenedor de menor prioridad. Las herramientas matemáticas tradicionales intentan minimizar todos los errores por igual, lo que a menudo conduce a este deslizamiento por la escalera con demasiada frecuencia.

2. La Solución: El Algoritmo de la "Red de Seguridad"

Los autores crearon un algoritmo de "Red de Seguridad" (el Algoritmo de Paraguas H–NP). Piensa en esto como una serie de puntos de control de seguridad.

En lugar de preguntar "¿En qué fila está esta persona?" de una sola vez, el algoritmo hace una serie de preguntas de Sí/No en un orden específico:

Punto de Control 1: "¿Es esta persona un VIP?"
- Si la respuesta es Sí: Envíelo a la fila VIP.
- Si la respuesta es No: No lo envíe a la fila VIP. Pase al siguiente punto de control.
Punto de Control 2: "¿Es este un Pasajero Estándar?"
- Si la respuesta es Sí: Envíelo a la fila Estándar.
- Si la respuesta es No: Pase al siguiente punto de control.
Punto de Control 3: Si no cumplieron los requisitos para VIP o Estándar, van a la fila de Bajo Riesgo.

3. La "Garantía" (El Paraguas)

La magia de este paquete es que no se limita a adivinar dónde deben trazarse las líneas. Utiliza un truco estadístico especial (dividiendo los datos en grupos de entrenamiento y de prueba) para garantizar que los errores de "deslizamiento hacia abajo" se mantengan por debajo de un límite que usted establece.

Usted establece las reglas: Usted le dice a la computadora: "Estoy dispuesto a aceptar que, el 10% de las veces, podríamos perder accidentalmente a un VIP". (Este es su alpha).
La computadora construye la red: Calcula exactamente dónde trazar las líneas para que, estadísticamente hablando, usted casi nunca caiga por debajo de ese límite del 10%.

Es como establecer un requisito de altura para una montaña rusa. El algoritmo asegura que, el 99% de las veces, nadie que sea más bajo que el límite pueda subir, incluso si la cinta métrica es un poco inestable.

4. Cómo Usarlo (La Caja de Herramientas)

El artículo presenta un paquete de R (un kit de herramientas de software para estadísticos) llamado HNPclassifier. Está diseñado para ser flexible:

Motores Integrados: Puede usar herramientas estándar como la Regresión Logística, Bosques Aleatorios (Random Forests) o Máquinas de Vectores de Soporte (SVM) como el "cerebro" que realiza las suposiciones iniciales.
Cerebros Personalizados: Si tiene una IA personalizada y sofisticada (como una red neuronal) que construyó en otro lugar, puede integrarla directamente. Al paquete no le importa cómo se generan las puntuaciones; simplemente toma las puntuaciones y construye la red de seguridad alrededor de ellas.
Reportes Visuales: Proporciona gráficos (diagramas de caja o boxplots) que le muestran, una y otra vez, que los errores de "deslizamiento hacia abajo" se mantienen de forma segura por debajo de su línea roja.

5. Pruebas del Mundo Real

Los autores probaron esta herramienta en dos escenarios principales descritos en el artículo:

Predicción de la Diabetes: Intentaron clasificar a las personas en "Pre-diabetes" (Crítico), "Diabetes" (Importante) y "Saludable". La herramienta logró asegurar que los casos de "Pre-diabetes" rara vez se pasaran por alto, incluso aunque el sistema general fuera ligeramente más lento o menos "perfecto" al adivinar a las personas saludables.
Préstamos Bancarios (Crédito del Sur de Alemania): Clasificaron a los solicitantes de préstamos en "Riesgo Malo" (No prestar) y cuatro niveles de "Riesgo Bueno" (Desde préstamo pequeño hasta préstamo grande). La herramienta logró evitar que el banco aprobara por error préstamos para personas de "Riesgo Malo" o que otorgara préstamos demasiado grandes para la seguridad del prestatario.

El Intercambio (Trade-Off)

El artículo es honesto sobre el costo: Para obtener esta garantía de seguridad estricta, el sistema podría cometer algunos errores "seguros" adicionales (como llamar a un VIP "Pasajero Estándar"). Es un intercambio: Usted acepta una probabilidad ligeramente mayor de un error pequeño para garantizar que nunca cometa uno catastrófico.

En resumen, HNPclassifier es una herramienta para cuando no puede permitirse estar equivocado sobre las cosas más importantes. Construye una red de seguridad estadística que atrapa los casos de alta prioridad antes de que se deslicen hacia el fondo.

Resumen Técnico de "HNPclassifier: Un paquete de R para la Clasificación de Neyman-Pearson Jerárquica"

Planteamiento del Problema
En problemas de clasificación multiclase donde las clases poseen un orden de prioridad natural (por ejemplo, severidad de la enfermedad, niveles de riesgo crediticio o categorías de calidad del aire), los objetivos de clasificación estándar suelen fallar al no abordar las consecuencias específicas de la clasificación errónea. Los métodos clásicos típicamente minimizan el error global o las sumas ponderadas de errores condicionales de clase, los cuales no priorizan inherentemente la identificación correcta de las clases de alta prioridad. Un modo de falla crítico en tales entornos es el "error de infracclasificación", definido como clasificar erróneamente una observación de una clase de mayor prioridad en una de menor prioridad. El control de estos errores es esencial en dominios como el diagnóstico médico o la evaluación de riesgos, donde omitir una condición severa es mucho más consecuente que otros tipos de errores. Si bien el paradigma de Neyman-Pearson (NP) se ha extendido a entornos binarios y multiclase generales, las herramientas existentes a menudo carecen de garantías de alta probabilidad para controlar los errores de infracclasificación en escenarios multiclase ordenados.

Metodología
El artículo presenta el paquete de R HNPclassifier, el cual implementa el marco de Clasificación de Neyman-Pearson Jerárquica (H–NP) propuesto por Wang et al. (2024). La metodología central se basa en el algoritmo paraguas H–NP, diseñado para construir clasificadores que controlen los errores de infracclasificación en niveles especificados por el usuario con alta probabilidad.

El algoritmo opera a través de los siguientes pasos:

Construcción de la Función de Puntuación: El algoritmo utiliza un conjunto de $I-1$ funciones de puntuación ( $T_1, \dots, T_{I-1}$ ) para transformar el problema multiclase en una secuencia de decisiones binarias. Estas funciones pueden derivarse de aprendices base integrados (regresión logística, bosques aleatorios, SVM) o modelos suministrados por el usuario. La construcción por defecto estima las probabilidades posteriores para definir las puntuaciones (por ejemplo, $T_1(X) = \hat{P}(Y=1|X)$ y $T_i(X) = \hat{P}(Y=i|X) / \sum_{j=i+1}^I \hat{P}(Y=j|X)$ ).
División de Muestras (Sample Splitting): Para asegurar el control del error con alta probabilidad, los datos se dividen aleatoriamente en subconjuntos para entrenar las funciones de puntuación, seleccionar umbrales y evaluar los errores remanentes empíricos.
Selección Secuencial de Umbrales: El algoritmo selecciona secuencialmente los umbrales ( $t_1, \dots, t_{I-1}$ ) utilizando un enfoque basado en estadísticas de orden. Emplea una estrategia secuencial que condiciona en los umbrales seleccionados previamente para derivar límites superiores menos conservadores para el umbral actual, minimizando así el error de clasificación remanente mientras se satisfacen las restricciones.
Búsqueda en Cuadrícula (Grid Search): Se realiza una búsqueda en cuadrícula sobre combinaciones de umbrales candidatos para minimizar el error remanente empírico ( $R_c$ ) sujeto a los límites derivados.
Garantías de Alta Probabilidad: El clasificador resultante $\hat{\phi}$ asegura que para cada nivel de prioridad $i$ , el error de infracclasificación $i$ -ésimo esté acotado por un nivel $\alpha_i$ especificado por el usuario con una probabilidad de al menos $1-\delta_i$ , donde $\delta_i$ es una tolerancia de violación especificada por el usuario.

Contribuciones Clave

Primer Paquete de R para el Control Asimétrico Multiclase: El artículo afirma que HNPclassifier es el primer paquete de R que proporciona control de error asimétrico de alta probabilidad específicamente para la clasificación multiclase ordenada.
Implementación del Algoritmo Paraguas H–NP: Operacionaliza el marco teórico H–NP, permitiendo a los usuarios especificar niveles de control ( $\alpha_i$ ) y tolerancias de violación ( $\delta_i$ ) para cada nivel de prioridad.
Flexibilidad en los Aprendices Base: El paquete soporta aprendices integrados (regresión logística, SVM, bosque aleatorio) y permite la integración de funciones de puntuación suministradas por el usuario o modelos preentrenados, acomodando algoritmos personalizados o novedosos que aún no están disponibles en los paquetes estándar de R.
Herramientas de Diagnóstico: El paquete incluye funciones (hnp_summary, hnp_boxplot) para evaluar el desempeño, enfocándose específicamente en los errores de infracclasificación y las tasas de violación, los cuales no son abordados típicamente por las herramientas de clasificación existentes.

Resultados
El artículo evalúa el paquete mediante estudios de simulación y aplicaciones de datos reales:

Simulaciones: En configuraciones gaussianas de tres y cinco clases, los clasificadores H–NP controlaron con éxito los errores de infracclasificación. Las tasas de violación (la proporción de experimentos donde los errores excedieron $\alpha_i$ ) fueron consistentemente iguales o inferiores a las tolerancias especificadas ( $\delta_i$ ), mientras que los clasificadores clásicos exhibieron tasas de violación cercanas al 100%. Este control conlleva un compromiso (trade-off): los clasificadores H–NP generalmente exhibieron errores de clasificación globales ligeramente más altos en comparación con los métodos clásicos, lo que refleja el costo de priorizar el control de errores específicos.
Aplicaciones de Datos Reales:
- Predicción del Estado de la Diabetes: Utilizando el conjunto de datos de Indicadores de Salud de la Diabetes, el método priorizó la detección de prediabetes y diabetes sobre los controles sanos. Los clasificadores H–NP redujeron significamente los errores de infracclasificación para etapas críticas en comparación con los métodos clásicos, apoyando la intervención médica oportuna.
  implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación de la implementación

HNPclassifier: An R Package for Hierarchical Neyman-Pearson Classification