Decomposing Observational Multiplicity in Decision Trees: Leaf and Structural Regret

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un grupo de detectives (los modelos de aprendizaje automático) a los que les pides resolver un caso: predecir si una persona obtendrá un préstamo o no.

El problema es que, aunque todos los detectives son muy inteligentes y tienen un historial de aciertos casi idéntico, a veces dan respuestas diferentes para la misma persona. A uno le dice "Sí, apruébalo", y a otro le dice "No, denégalo". Esto se llama multiplicidad predictiva.

En el pasado, pensábamos que esto pasaba porque los detectives elegían diferentes métodos de investigación (arquitectura del modelo). Pero este artículo nos dice algo más profundo: a veces, la confusión no es por cómo piensan los detectives, sino por cómo les contamos la historia del caso (los datos).

Aquí te explico las ideas clave de este artículo usando analogías sencillas:

1. El Problema: La "Historia" cambia un poco

Imagina que los datos de entrenamiento son como un testimonio de un testigo.

El testigo vio algo real (la verdad), pero al contártelo, puede haber un pequeño error o una duda.
Si le pides al testigo que cuente la historia otra vez (otra vez), podría decir algo ligeramente diferente, aunque la verdad sea la misma.
Si entrenas a un detective con la primera versión de la historia, obtienes un resultado. Si lo entrenas con la segunda versión (que es igual de válida), obtienes un resultado diferente.

Esto es la multiplicidad observacional: la incertidumbre que viene de que los datos que tenemos son solo una versión posible de la realidad.

2. La Solución: Dividir el "Miedo" en dos tipos

Los autores dicen que, en un árbol de decisión (que es como un diagrama de flujo de preguntas y respuestas), esta confusión viene de dos fuentes distintas. Imagina que el árbol es un mapa de un bosque que usamos para encontrar el tesoro.

A. El "Arrepentimiento de la Hoja" (Leaf Regret)

La analogía: Imagina que el mapa te lleva a un claro específico en el bosque (una "hoja" del árbol). Dentro de ese claro, hay 10 personas. 8 dicen que el tesoro está a la izquierda, y 2 dicen que está a la derecha.
El problema: Si cambias un poco a las personas (por ejemplo, si una de las 2 que decían "derecha" cambia de opinión), la recomendación dentro de ese claro podría cambiar.
En resumen: Es el ruido interno. Es la incertidumbre que existe dentro de una zona ya definida. Es como si el mapa estuviera bien dibujado, pero dentro de esa habitación pequeña, la gente está un poco confundida.

B. El "Arrepentimiento Estructural" (Structural Regret)

La analogía: Ahora imagina que, al dibujar el mapa, cambias un poco la ruta. En lugar de ir al claro de la izquierda, el mapa te lleva a un claro totalmente diferente en el lado derecho del bosque.
El problema: Aquí no es que la gente dentro del claro esté confundida; es que el mapa en sí mismo cambió. Un pequeño cambio en los datos hizo que el árbol de decisiones creciera de forma diferente, cortando el bosque en zonas distintas.
En resumen: Es la inestabilidad del mapa. Es mucho más grave porque significa que el modelo no sabe ni siquiera dónde mirar.

3. ¿Qué descubrieron? (La gran sorpresa)

Los autores midieron esto en datos reales de créditos bancarios y descubrieron algo muy importante:

El "Arrepentimiento Estructural" es el culpable principal.
En muchos casos, la confusión no viene de que haya ruido dentro de las zonas (las hojas), sino de que el mapa cambia demasiado dependiendo de cómo se entrenó.
- Dato curioso: En algunos casos, la inestabilidad del mapa (estructura) fue 15 veces más grande que la confusión dentro de las zonas (hojas).
- Traducción: No te preocupes tanto por tener más datos dentro de una zona pequeña; preocúpate más por asegurarte de que el mapa (la estructura del árbol) sea estable y no cambie de un día para otro.

4. ¿Para qué sirve esto? (El "Botón de Pausa")

La parte más útil del artículo es cómo usar esta información para seguridad.

Imagina que el modelo es un médico. A veces, el médico está muy seguro de su diagnóstico. Otras veces, está "adivinando" porque el mapa es confuso.

Los autores proponen un sistema de "Abstención Selectiva".
Si el modelo detecta que la "inestabilidad estructural" es muy alta (es decir, que el mapa es inestable para ese paciente), el modelo dice: "No sé, no voy a decidir. Deja que un humano revise esto".
El resultado: Al dejar de tomar decisiones arriesgadas en los casos dudosos, la precisión de los casos que sí decide el modelo mejora drásticamente (por ejemplo, de un 92% a un 100% en ciertos grupos).

Conclusión en una frase

Este artículo nos enseña que, para tomar decisiones justas y seguras con árboles de decisión, no basta con mirar si el modelo acierta en general; debemos medir si el "mapa" que usa el modelo es estable, y si no lo es, es mejor detenerse y pedir ayuda humana antes de cometer un error arbitrario.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Descomposición de la Multiplicidad Observacional en Árboles de Decisión

1. Planteamiento del Problema

El artículo aborda el fenómeno de la multiplicidad predictiva, donde múltiples modelos con un rendimiento agregado casi idéntico asignan predicciones conflictivas a un mismo individuo. En dominios de alto riesgo (como la evaluación de riesgo crediticio, salud o legal), esto genera una "arbitrariedad predictiva" que compromete la justificación de las decisiones individuales.

El foco específico del trabajo es la multiplicidad observacional, una fuente fundamental de incertidumbre que surge de la naturaleza estocástica de la recolección de etiquetas. A diferencia de la multiplicidad causada por la subespecificación del modelo (elección de arquitectura u optimización), la multiplicidad observacional reconoce que las etiquetas de entrenamiento son realizaciones únicas de probabilidades verdaderas subyacentes. Si se muestrearan etiquetas diferentes de la misma distribución subyacente, se entrenarían modelos distintos.

Aunque este concepto ha sido estudiado en regresión logística (modelos suaves), su implicación en árboles de decisión (modelos no suaves y basados en particiones) ha sido poco explorada. Los árboles son notoriamente inestables ante pequeñas perturbaciones en los datos, lo que sugiere que la multiplicidad en estos modelos proviene de dos fuentes distintas que deben ser cuantificadas por separado.

2. Metodología

Los autores proponen un marco formal para descomponer la incertidumbre predictiva total en dos componentes complementarios: Arrepentimiento de Hoja (Leaf Regret) y Arrepentimiento Estructural (Structural Regret).

Definiciones:
- Arrepentimiento de Hoja ( $R_{leaf}$ ): Cuantifica la variabilidad intrínseca de las predicciones dentro de una hoja fija, condicionada a una estructura de árbol dada. Captura la incertidumbre aleatoria (ruido de etiquetas) debido a realizaciones estocásticas dentro de una partición específica. Se modela como la varianza del estimador de probabilidad de la hoja.
- Arrepentimiento Estructural ( $R_{struct}$ ): Captura la variabilidad adicional inducida por la inestabilidad de la propia estructura del árbol aprendido. Surge de la aleatoriedad en la selección de divisiones (splits) y la formación de la partición debido a diferentes realizaciones de etiquetas de entrenamiento.
Desarrollo Teórico:
- Se establecen garantías estadísticas y desigualdades de concentración para el arrepentimiento de hoja, demostrando que es una cantidad bien definida que converge a cero a medida que aumenta el tamaño de la muestra en la hoja ( $n_L \to \infty$ ).
- Se propone un estimador de "plug-in" y un procedimiento de Monte Carlo para aproximar el arrepentimiento de hoja en muestras finitas.
- Para el arrepentimiento estructural, dado que su forma distribucional es intratable analíticamente, se utiliza un enfoque de re-muestreo (Bootstrap) para estimar la varianza inducida por la inestabilidad del algoritmo de aprendizaje.
- Teorema de Descomposición: Se demuestra que la varianza predictiva total se descompone aditivamente:
  $\text{Var}(\hat{p}(x)) = \mathbb{E}_T[R_{leaf}] + R_{struct}(x)$
  Donde el primer término es el arrepentimiento de hoja esperado y el segundo es el estructural.

3. Contribuciones Clave

Marco de Descomposición Formal: Introducción de las nociones de Leaf Regret y Structural Regret para árboles de decisión, llenando el vacío teórico existente para modelos no suaves.
Garantías Estadísticas: Demostración teórica de la consistencia y convergencia de los estimadores propuestos, diferenciando entre ruido local (dentro de la estructura) e inestabilidad global (de la estructura).
Mecanismo de Abstención (Selective Prediction): Propuesta de utilizar estas medidas de arrepentimiento como un mecanismo para que el modelo se "abstenga" de predecir en casos donde la incertidumbre es alta, mejorando así la seguridad algorítmica.
Validación Empírica: Confirmación experimental de que la descomposición teórica coincide casi perfectamente con la varianza observada en simulaciones.

4. Resultados Experimentales

Los experimentos se realizaron en diversos conjuntos de datos de riesgo crediticio (ej. taiwan_credit, german_credit, bank_marketing, hmeq).

Validación de la Descomposición: Se observó una correspondencia casi perfecta (alineación en la línea $y=x$ ) entre la suma de los arrepentimientos estimados (hoja + estructural) y la varianza predictiva verdadera simulada.
Dominancia del Arrepentimiento Estructural:
- El análisis comparativo reveló que el arrepentimiento estructural es el principal motor de la multiplicidad observacional.
- En algunos conjuntos de datos (como taiwan_credit), la variabilidad debida a la inestabilidad estructural fue más de 15 veces mayor que la variabilidad dentro de las hojas.
- Esto indica que la inestabilidad de los límites de partición es una fuente de incertidumbre mucho más crítica que el ruido de etiquetas dentro de una hoja fija.
Impacto del Tamaño de la Hoja: Aumentar el tamaño mínimo de la hoja reduce drásticamente el arrepentimiento de hoja (confirmando el Teorema 1), pero puede llevar a un sobre-suavizado (aumento de la pérdida logística), lo que sugiere un compromiso necesario en la selección de modelos.
Mejora en la Seguridad (Selective Prediction):
- Al ordenar las instancias por su arrepentimiento total y abstenerse de predecir en las más inestables, se logró mejorar la Recall (sensibilidad) del 92% al 100% en subpoblaciones estables (ej. en german_credit).
- El uso de Structural Regret como criterio de filtrado resultó más efectivo para identificar regiones "arbitrarias" que el uso de Leaf Regret solo.

5. Significado e Implicaciones

Este trabajo establece un marco riguroso para cuantificar y gestionar la multiplicidad observacional en sistemas basados en árboles de decisión, con implicaciones directas para la seguridad algorítmica y la interpretabilidad:

Diagnóstico de Inestabilidad: Permite a los desarrolladores distinguir si la incertidumbre de un modelo se debe a falta de datos en una región específica (ruido de hoja) o a la fragilidad de la estructura del modelo (inestabilidad estructural).
Estrategias de Mitigación: Dado que el arrepentimiento estructural es dominante, las estrategias de mitigación deben priorizar la estabilización de la estructura del modelo (mediante regularización más fuerte, poda o métodos de ensamblaje) en lugar de simplemente aumentar el tamaño de las hojas.
Principio de "Honestidad" en la Toma de Decisiones: El marco permite identificar cuándo un modelo está "adivinando" debido a la inestabilidad de las etiquetas. En entornos de alto riesgo, esto permite derivar casos a revisión manual en lugar de tomar decisiones automatizadas arbitrarias, mejorando la justificación ética y legal de las decisiones.

En conclusión, el artículo transforma la comprensión de la incertidumbre en árboles de decisión, pasando de métricas agregadas a una descomposición granular que permite decisiones individuales más estables y justificables.