No evaluation without fair representation : Impact of label and selection bias on the evaluation, performance and mitigation of classification models

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás entrenando a un equipo de scouts para que encuentren los mejores talentos en un concurso de talentos. El objetivo es que el equipo sea justo y elija a los mejores, sin importar de qué barrio vengan o de qué color sea su piel.

Este artículo de investigación es como una advertencia importante para esos scouts (los algoritmos de Inteligencia Artificial) y para los entrenadores (los científicos de datos).

Aquí tienes la explicación sencilla, usando analogías de la vida real:

1. El Problema: El "Espejo Roto"

Imagina que quieres entrenar a tu equipo de scouts, pero el espejo en la sala de entrenamiento está roto y deformado.

La realidad (El Mundo Justo): En la vida real, hay muchos talentos brillantes en todos los grupos.
El espejo (Los Datos Sesgados): El espejo muestra que el grupo A es mucho más talentoso que el grupo B, simplemente porque el espejo está sucio o porque solo se ve a una parte del grupo B.

El problema es que, durante años, los entrenadores han estado entrenando a sus equipos mirando solo ese espejo roto y luego evaluando si el equipo hizo un buen trabajo... ¡mirando al mismo espejo roto!

La conclusión del papel: Si entrenas y evalúas con un espejo roto, nunca sabrás si tu equipo es realmente bueno o justo. Solo sabrás si es bueno copiando las distorsiones del espejo.

2. Los Dos Tipos de "Suciedad" en el Espejo

Los autores estudian dos formas principales en las que el espejo se puede romper:

Sesgo de Etiqueta (Label Bias): Es como si alguien hubiera pintado sobre el espejo. Digamos que un talento del grupo B es genial, pero alguien le puso una etiqueta falsa que dice "no sirve". El algoritmo aprende que ese talento es malo porque así le dijeron en el espejo.
Sesgo de Selección (Selection Bias): Es como si el espejo solo mostrara a la mitad de la gente.
- Selección Aleatoria: Simplemente faltan personas del grupo B porque no llegaron al concurso (quizás el autobús no pasó).
- Auto-selección: Los miembros del grupo B que se sienten inseguros no se presentan al concurso, así que en el espejo solo se ven los más valientes.
- Selección Maliciosa: Alguien en el concurso decidió activamente quitar a los talentos del grupo B y poner solo a los del grupo A para que parezca que el grupo A es superior.

3. La Gran Sorpresa: ¡No hay que sacrificar la calidad por la justicia!

Existe una creencia popular en el mundo de la IA que dice: "Si quieres que tu sistema sea justo, tendrás que hacerlo menos preciso (menos inteligente)". Se llama el "compromiso entre justicia y precisión".

El papel dice: ¡FALSO!

Usando su nuevo método (que explicaremos abajo), descubrieron que cuando evalúas al equipo mirando un espejo limpio (datos justos), puedes tener ambas cosas: un equipo muy preciso Y muy justo. El "compromiso" solo existía porque estaban mirando el espejo roto.

4. La Nueva Herramienta: El "Laboratorio de Control"

Para demostrar esto, los autores crearon un laboratorio de control.

Tomaron datos reales que ya eran bastante justos (como un registro de notas de estudiantes o resultados de cursos universitarios).
Artificialmente, introdujeron "suciedad" (sesgos) en esos datos para crear versiones distorsionadas.
Entrenaron a los algoritmos con los datos sucios.
Evaluaron a los algoritmos con los datos limpios (el "mundo justo").

Esto es como entrenar a un piloto en una tormenta simulada, pero evaluarlo en un día soleado para ver si realmente sabe volar bien, en lugar de evaluarlo en la misma tormenta donde se confundió.

5. Lo que Descubrieron sobre los "Remedios" (Métodos de Mitigación)

En el mundo de la IA, hay muchas "pastillas" o métodos para intentar arreglar el sesgo. El estudio probó 8 de estos métodos y descubrió algo crucial: No todas las pastillas sirven para todas las enfermedades.

El remedio equivocado puede empeorar las cosas: Si intentas arreglar un problema de "falta de gente" (sesgo de selección) usando una pastilla diseñada para "etiquetas falsas" (sesgo de etiqueta), el sistema puede volverse aún más injusto.
Algunos métodos son muy buenos: Por ejemplo, el método de "Re-pesaje" (dar más importancia a los datos faltantes) funcionó muy bien para corregir la falta de gente, pero no tanto para corregir etiquetas falsas.
El contexto lo es todo: No puedes elegir un método de justicia al azar. Primero debes entender qué tipo de suciedad hay en tus datos.

6. La Lección Final

El mensaje principal del artículo es: "No hay evaluación sin representación justa".

Si quieres saber si tu Inteligencia Artificial es realmente justa y buena, no puedes usar los mismos datos sucios para entrenarla y para probarla. Necesitas un punto de referencia limpio (un "mundo justo") para ver si realmente ha aprendido a ser equitativa.

En resumen:

Deja de usar el espejo roto para evaluar a tus scouts.
No creas que tienes que elegir entre ser inteligente o ser justo; puedes ser ambas cosas si miras la realidad con claridad.
Antes de usar un "remedio" de justicia, asegúrate de saber exactamente qué tipo de enfermedad tiene tu dato.

Este trabajo nos invita a ser más cuidadosos y a construir sistemas que realmente reflejen un mundo justo, en lugar de solo reflejar nuestros prejuicios históricos.

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "No evaluation without fair representation: Impact of label and selection bias on the evaluation, performance and mitigation of classification models" (Sin evaluación sin representación justa: Impacto del sesgo de etiqueta y de selección en la evaluación, el rendimiento y la mitigación de modelos de clasificación), escrito por Magali Legast, Toon Calders y François Fouss.

1. El Problema

El aprendizaje automático (ML) a menudo se entrena y evalúa utilizando datos que contienen sesgos históricos o estructurales. La literatura actual sobre equidad algorítmica enfrenta dos limitaciones críticas:

Evaluación sesgada: La mayoría de los estudios evalúan los modelos y las técnicas de mitigación utilizando el mismo conjunto de datos sesgado para entrenamiento y prueba. Esto induce una falsa percepción de un "compromiso" (trade-off) entre equidad y precisión, y distorsiona las métricas de equidad.
Desconocimiento del origen del sesgo: Los conjuntos de datos públicos populares (como Adult, COMPAS) tienen fuentes de sesgo desconocidas o mal definidas, lo que dificulta determinar qué técnica de mitigación es adecuada para un tipo de sesgo específico.

Los autores argumentan que evaluar modelos en datos sesgados lleva a conclusiones erróneas sobre su comportamiento real en un "mundo justo" y sobre la eficacia de las intervenciones de equidad.

2. Metodología y Marco de Trabajo

Para abordar estas limitaciones, los autores proponen un Marco de Sesgo y Evaluación (Biasing and Evaluation Framework) basado en el concepto de "Mundo Justo" (Fair World Framework).

A. Marco Conceptual

Mundo Justo ( $D_f$ ): Se asume la existencia de una distribución de datos subyacente ideal donde se cumplen los criterios de equidad y no hay sesgos no deseados.
Mundo Sesgado ( $D_b$ ): Los datos observables son una versión distorsionada del mundo justo debido a procesos de sesgo.
Enfoque: En lugar de usar datos reales sesgados como verdad absoluta, el marco utiliza datos reales que se consideran "suficientemente justos" como base, e introduce artificialmente tipos de sesgo controlados para crear versiones sesgadas.

B. Modelado de Sesgos

Se estudian dos tipos principales de sesgos y sus subtipos:

Sesgo de Etiqueta (Label Bias): Ocurre cuando la etiqueta en los datos de entrenamiento no corresponde al mundo justo. Se modela penalizando al grupo no privilegiado (reduciendo sus puntuaciones antes de aplicar el umbral de clasificación).
Sesgo de Selección (Selection Bias): Ocurre cuando la muestra no representa la distribución del mundo justo. Se modelan tres subtipos:
- Selección Aleatoria: Submuestreo aleatorio del grupo no privilegiado.
- Autoselección: Submuestreo selectivo donde individuos del grupo no privilegiado con puntuaciones más bajas tienen mayor probabilidad de ser excluidos.
- Selección Maliciosa: Submuestreo intencional de individuos no privilegiados con etiquetas positivas y privilegiados con etiquetas negativas para exagerar las diferencias.

C. Experimentación

Conjuntos de Datos: Se utilizaron tres conjuntos de datos reales con baja discriminación inicial: Student Performance, OULADstem y OULADsocial.
Procedimiento: Se inyectaron niveles crecientes de sesgo (intensidad de 0 a 0.9) en los datos de entrenamiento.
Modelos: Se entrenaron modelos agnósticos a la equidad (Random Forest, Redes Neuronales, Árboles de Decisión) y se aplicaron 8 métodos de mitigación (pre-procesamiento y post-procesamiento).
Evaluación: Los modelos se evaluaron exclusivamente en el conjunto de datos original (no sesgado) que representa el "mundo justo", permitiendo medir el rendimiento real y la equidad real, en contraste con la evaluación sesgada tradicional.

3. Contribuciones Clave

Marco de Evaluación Dual: Introducción de un framework que permite entrenar con datos sesgados (con tipos de sesgo conocidos) y evaluar en datos no sesgados, proporcionando una evaluación más precisa y sensible al contexto.
Refutación Empírica del Trade-off: Demostración de que, cuando se evalúa en un conjunto de datos no sesgado, no existe un compromiso inevitable entre equidad y precisión. Es posible mejorar ambas simultáneamente.
Análisis de la Eficacia de Mitigación por Tipo de Sesgo: Identificación de que la eficacia de los métodos de mitigación depende críticamente del tipo de sesgo presente. No existe una solución universal; un método que funciona para un tipo de sesgo puede ser contraproducente para otro.
Impacto de la Selección vs. Etiqueta: Diferenciación clara de cómo el sesgo de etiqueta afecta drásticamente la precisión y la equidad, mientras que el sesgo de selección (bajo ciertas condiciones) tiene un impacto más limitado o diferente en el rendimiento del modelo.

4. Resultados Principales

A. Evaluación Sesgada vs. Justa

Evaluar modelos en datos sesgados produce mediciones engañosas. Por ejemplo, un modelo que parece tener buena precisión y equidad en datos sesgados puede tener un rendimiento pobre en el mundo justo.
El sesgo de etiqueta distorsiona las métricas que dependen de la verdad fundamental (Ground Truth), mientras que el sesgo de selección afecta a todas las métricas, aunque de manera variable.

B. Impacto en Modelos Agnósticos (Sin Mitigación)

Sesgo de Etiqueta: Tiene un efecto muy perjudicial en la precisión, la equidad grupal e individual. Degrada directamente la relación entre características y etiquetas correctas.
Sesgo de Selección:
- Bajo la hipótesis de "Todos Somos Iguales" (WAE) y con características predictivas suficientes, la selección aleatoria tiene un impacto negligible más allá de la reducción del tamaño del conjunto de datos.
- La autoselección y la selección maliciosa pueden aumentar la dependencia del modelo en el atributo sensible, pero su impacto en la precisión global es limitado si los datos son abundantes y de alta calidad.

C. Eficacia de los Métodos de Mitigación

Los resultados varían drásticamente según el tipo de sesgo:

Reponderación (Reweighing): Funciona bien para sesgos de selección (aleatoria, autoselección, maliciosa) al restaurar la distribución, pero tiene efectos mixtos en el sesgo de etiqueta.
Masajeo (Massaging) y ROC-SPD: Funcionan bien contra el sesgo de etiqueta (al corregir etiquetas), pero fallan estrepitosamente ante el sesgo de selección. Al modificar etiquetas en un contexto de selección sesgada, introducen un nuevo sesgo de etiqueta que empeora la equidad real ("injusticia inversa").
FTU (Fairness Through Unawareness): Funciona bien en la mayoría de escenarios cuando la correlación entre el atributo sensible y otras características es baja en los datos originales.
Métodos basados en Odds (EOP, CEO, ROC-EqOp): Son vulnerables tanto al sesgo de etiqueta como al de selección, ya que optimizan métricas que se ven distorsionadas por los datos de entrenamiento sesgados.

D. Trade-offs

Equidad vs. Precisión: Bajo evaluación justa, no se observa trade-off. Los métodos que mejoran la equidad también mantienen o mejoran la precisión.
Equidad Grupal vs. Individual: No hay conflicto entre métricas de equidad grupal (como SPD) e individual (como BCC) cuando se evalúa en el mundo justo.

5. Significado e Implicaciones

Cambio de Paradigma en la Evaluación: El artículo aboga por abandonar la práctica de usar conjuntos de prueba sesgados como "verdad absoluta". Se debe buscar la creación de conjuntos de datos duales (con etiquetas sesgadas y justas) o el uso de datos sintéticos/controlados para la evaluación.
Selección Contextual de Métodos: Los practicantes no deben aplicar métodos de mitigación de forma genérica. Es crucial diagnosticar el tipo de sesgo presente en los datos de entrenamiento antes de elegir una técnica. Por ejemplo, usar Massaging en un problema con sesgo de selección puede ser desastroso.
Futuro de la Investigación: Se necesita desarrollar mejores herramientas para detectar el tipo de sesgo en conjuntos de datos reales y crear métodos de mitigación más robustos que no dependan de métricas distorsionadas por el sesgo de los datos de entrenamiento.

En resumen, el trabajo demuestra que la evaluación de modelos de ML debe realizarse en un entorno que represente la realidad deseada (mundo justo) para evitar conclusiones erróneas sobre la eficacia de las intervenciones de equidad y para desmitificar la supuesta necesidad de sacrificar precisión por equidad.