Decomposing Observational Multiplicity in Decision Trees: Leaf and Structural Regret

Este artículo introduce y valida un marco teórico que descompone la multiplicidad observacional en clasificadores de árboles de decisión en "arrepentimiento de hoja" y "arrepentimiento estructural", demostrando que la inestabilidad de la estructura del árbol es el principal factor de variabilidad y que estas métricas pueden utilizarse para mejorar la seguridad del modelo mediante la predicción selectiva.

Mustafa Cavus

Publicado Fri, 13 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un grupo de detectives (los modelos de aprendizaje automático) a los que les pides resolver un caso: predecir si una persona obtendrá un préstamo o no.

El problema es que, aunque todos los detectives son muy inteligentes y tienen un historial de aciertos casi idéntico, a veces dan respuestas diferentes para la misma persona. A uno le dice "Sí, apruébalo", y a otro le dice "No, denégalo". Esto se llama multiplicidad predictiva.

En el pasado, pensábamos que esto pasaba porque los detectives elegían diferentes métodos de investigación (arquitectura del modelo). Pero este artículo nos dice algo más profundo: a veces, la confusión no es por cómo piensan los detectives, sino por cómo les contamos la historia del caso (los datos).

Aquí te explico las ideas clave de este artículo usando analogías sencillas:

1. El Problema: La "Historia" cambia un poco

Imagina que los datos de entrenamiento son como un testimonio de un testigo.

  • El testigo vio algo real (la verdad), pero al contártelo, puede haber un pequeño error o una duda.
  • Si le pides al testigo que cuente la historia otra vez (otra vez), podría decir algo ligeramente diferente, aunque la verdad sea la misma.
  • Si entrenas a un detective con la primera versión de la historia, obtienes un resultado. Si lo entrenas con la segunda versión (que es igual de válida), obtienes un resultado diferente.

Esto es la multiplicidad observacional: la incertidumbre que viene de que los datos que tenemos son solo una versión posible de la realidad.

2. La Solución: Dividir el "Miedo" en dos tipos

Los autores dicen que, en un árbol de decisión (que es como un diagrama de flujo de preguntas y respuestas), esta confusión viene de dos fuentes distintas. Imagina que el árbol es un mapa de un bosque que usamos para encontrar el tesoro.

A. El "Arrepentimiento de la Hoja" (Leaf Regret)

  • La analogía: Imagina que el mapa te lleva a un claro específico en el bosque (una "hoja" del árbol). Dentro de ese claro, hay 10 personas. 8 dicen que el tesoro está a la izquierda, y 2 dicen que está a la derecha.
  • El problema: Si cambias un poco a las personas (por ejemplo, si una de las 2 que decían "derecha" cambia de opinión), la recomendación dentro de ese claro podría cambiar.
  • En resumen: Es el ruido interno. Es la incertidumbre que existe dentro de una zona ya definida. Es como si el mapa estuviera bien dibujado, pero dentro de esa habitación pequeña, la gente está un poco confundida.

B. El "Arrepentimiento Estructural" (Structural Regret)

  • La analogía: Ahora imagina que, al dibujar el mapa, cambias un poco la ruta. En lugar de ir al claro de la izquierda, el mapa te lleva a un claro totalmente diferente en el lado derecho del bosque.
  • El problema: Aquí no es que la gente dentro del claro esté confundida; es que el mapa en sí mismo cambió. Un pequeño cambio en los datos hizo que el árbol de decisiones creciera de forma diferente, cortando el bosque en zonas distintas.
  • En resumen: Es la inestabilidad del mapa. Es mucho más grave porque significa que el modelo no sabe ni siquiera dónde mirar.

3. ¿Qué descubrieron? (La gran sorpresa)

Los autores midieron esto en datos reales de créditos bancarios y descubrieron algo muy importante:

  • El "Arrepentimiento Estructural" es el culpable principal.
    En muchos casos, la confusión no viene de que haya ruido dentro de las zonas (las hojas), sino de que el mapa cambia demasiado dependiendo de cómo se entrenó.
    • Dato curioso: En algunos casos, la inestabilidad del mapa (estructura) fue 15 veces más grande que la confusión dentro de las zonas (hojas).
    • Traducción: No te preocupes tanto por tener más datos dentro de una zona pequeña; preocúpate más por asegurarte de que el mapa (la estructura del árbol) sea estable y no cambie de un día para otro.

4. ¿Para qué sirve esto? (El "Botón de Pausa")

La parte más útil del artículo es cómo usar esta información para seguridad.

Imagina que el modelo es un médico. A veces, el médico está muy seguro de su diagnóstico. Otras veces, está "adivinando" porque el mapa es confuso.

  • Los autores proponen un sistema de "Abstención Selectiva".
  • Si el modelo detecta que la "inestabilidad estructural" es muy alta (es decir, que el mapa es inestable para ese paciente), el modelo dice: "No sé, no voy a decidir. Deja que un humano revise esto".
  • El resultado: Al dejar de tomar decisiones arriesgadas en los casos dudosos, la precisión de los casos que decide el modelo mejora drásticamente (por ejemplo, de un 92% a un 100% en ciertos grupos).

Conclusión en una frase

Este artículo nos enseña que, para tomar decisiones justas y seguras con árboles de decisión, no basta con mirar si el modelo acierta en general; debemos medir si el "mapa" que usa el modelo es estable, y si no lo es, es mejor detenerse y pedir ayuda humana antes de cometer un error arbitrario.