Inference conditional on selection: a review

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ El Dilema del "Doble Truco" en la Ciencia

Imagina que eres un entrenador de un equipo de fútbol. Tienes 11 jugadores y quieres saber quién es el mejor goleador.

El problema (El "Doble Truco"):
En la ciencia moderna, a menudo hacemos lo siguiente: miramos los datos de todos los jugadores, vemos quién anotó más goles en el último partido y decimos: "¡Ese es el mejor! Vamos a calcular sus estadísticas oficiales basándonos en ese mismo partido".

Esto se llama "doble truco" (double dipping). Es como si un juez mirara el caso, decidiera quién es el culpable basándose en la evidencia, y luego usara esa misma evidencia para sentenciarlo, sin darse cuenta de que el hecho de haberlo elegido como culpable ya sesgó la decisión.

En estadística, esto hace que los resultados parezcan mucho más seguros de lo que realmente son. Si eliges al "ganador" porque tuvo suerte en un día específico, y luego calculas su promedio usando esos mismos datos, estarás sobreestimando su talento.

🏆 Los Tres Ejemplos del Papel

Los autores del artículo usan tres situaciones para explicar por qué esto es un problema:

El Ganador de la Lotería (Inferencia sobre un ganador): Imagina que tienes 100 máquinas tragamonedas. Una de ellas acaba de darte el premio gordo. Si intentas calcular cuánto paga esa máquina solo basándote en ese premio, pensarás que es una máquina increíble. Pero probablemente solo fue suerte. Necesitas un método que diga: "Oye, elegiste esta máquina porque ganó, así que su promedio real podría ser menor".
El Árbol de Decisiones (Inferencia en un árbol de regresión): Imagina que un algoritmo divide a tus clientes en grupos según su comportamiento para encontrar a los que más gastan. Si luego calculas cuánto gastan esos grupos específicos usando los mismos datos que usaste para crear los grupos, volverás a caer en el truco.
Agrupar Células (Inferencia después de agrupar): En biología, los científicos agrupan células (como si fueran personas en una fiesta) para ver qué tipos existen. Luego prueban qué genes son diferentes entre esos grupos. Si usan los mismos datos para agrupar y para probar, los resultados serán falsos positivos.

🛡️ La Solución: La "Inferencia Selectiva"

La ciencia necesita una forma de hacer estas preguntas sin mentirse a sí misma. El artículo revisa varias técnicas para lograrlo. La idea central es: "Si usaste los datos para elegir la pregunta, no puedes usar los mismos datos para responderla sin corregirte".

Aquí están las estrategias principales explicadas con analogías:

1. La División de Muestras (Sample Splitting)

La analogía: Imagina que tienes un examen de matemáticas. Para evitar hacer trampa, decides usar dos exámenes diferentes.
- Usas el Examen A para decidir qué temas estudiar (selección).
- Usas el Examen B para probar si realmente sabes esos temas (inferencia).
Ventaja: Es muy seguro y fácil de entender.
Desventaja: ¡Desperdicias datos! Si tienes pocos datos, dividirlos a la mitad significa que tienes la mitad de la información para aprender y la mitad para probar. Es como estudiar solo la mitad del libro.

2. La "Fisión" o "Delgadez" de Datos (Data Thinning/Fission)

La analogía: Imagina que tienes un pastel gigante. En lugar de cortarlo en dos mitades (como en el método anterior), usas un truco mágico para separar el pastel en dos capas invisibles que son independientes entre sí, pero que juntas forman el pastel original.
- Usas la capa superior para elegir qué sabor probar.
- Usas la capa inferior para probar el sabor.
Ventaja: No desperdicias nada del pastel. Usas toda la información, pero separada de forma inteligente.
Desventaja: Solo funciona con ciertos tipos de "pasteles" (distribuciones matemáticas específicas). Si tu dato es muy extraño, el truco no funciona.

3. Inferencia Condicional Completa (Full CSI)

La analogía: Imagina que eres un detective que ha visto todo el crimen. En lugar de ignorar parte de la evidencia, te pones una venda en los ojos y te dices: "Solo voy a analizar la evidencia bajo la condición estricta de que el sospechoso fue elegido de esta manera exacta".
Cómo funciona: Usas todos los datos, pero haces un cálculo matemático muy complejo que "condiciona" el resultado al hecho de que ya habías elegido a ese sospechoso.
Ventaja: Usas toda la información y no desperdicias nada.
Desventaja: A veces, el cálculo es tan estricto que el resultado es un intervalo de confianza infinitamente ancho (ej: "El ganador podría tener entre 0 y 1000 goles"). Es tan seguro que deja de ser útil. Es como decir: "El ganador es alguien, pero no sé quién".

4. La "Inferencia Condicional Aleatorizada" (Randomized CSI)

La analogía: Es una mezcla de las anteriores. Imagina que le das al detective un poco de "ruido" o "niebla" artificial en sus gafas antes de elegir al sospechoso.
Cómo funciona: Agregas un poco de ruido aleatorio a los datos antes de elegir. Esto evita que la selección sea demasiado obvia (evitando los intervalos infinitos), pero te permite usar todos los datos para la prueba final.
Ventaja: Es el equilibrio perfecto. Evita los intervalos infinitos y no desperdicia datos.

🧪 ¿Qué descubrieron con sus experimentos?

Los autores probaron estas técnicas con datos reales (como secuenciación de ARN de células individuales, que es como tomar una foto de cada célula de tu cuerpo para ver qué hace).

El método clásico (sin corrección): Falla estrepitosamente. Encuentra diferencias que no existen (falsos positivos).
La división de muestras: Funciona bien, pero a veces pierde precisión porque usa menos datos.
La inferencia condicional completa: Es muy precisa en la selección, pero a veces sus resultados son tan amplios que no dicen nada útil.
La inferencia aleatorizada y la fisión de datos: Parecen ser las mejores opciones modernas. Logran un equilibrio: son lo suficientemente seguras para no mentir, pero lo suficientemente precisas para ser útiles.

💡 Conclusión para el día a día

Este artículo nos enseña que en la ciencia moderna, elegir qué preguntar basándonos en los datos es inevitable y necesario. No podemos predecir el futuro.

El mensaje final es: No te asustes si ves que los científicos eligen sus hipótesis mirando los datos. Lo importante es que usen las herramientas correctas (como las que se revisan en este papel) para asegurarse de que, al responder la pregunta, no estén simplemente contando la suerte que tuvieron al elegirla.

Es la diferencia entre decir: "¡Gané la lotería, soy rico!" (sin corrección) y decir: "Gané la lotería, pero considerando que hay millones de boletos, mi riqueza real es..." (con inferencia selectiva).

Each language version is independently generated for its own context, not a direct translation.

A continuación presento un resumen técnico detallado del artículo "Inference conditional on selection: a review" (Inferencia condicional a la selección: una revisión), escrito por Anna Neufeld, Ronan Perry y Daniela Witten.

1. El Problema: La Inferencia Selectiva y el "Doble Uso" de Datos

El artículo aborda un desafío fundamental en la estadística moderna: la inferencia selectiva. En la práctica científica contemporánea, los modelos, hipótesis y parámetros a menudo se seleccionan después de explorar los datos, en lugar de estar especificados a priori.

El fenómeno del "Doble Uso" (Double Dipping): Se refiere a la práctica de utilizar el mismo conjunto de datos tanto para seleccionar una pregunta estadística (ej. elegir una variable, un clúster o un "ganador") como para responderla (ej. calcular un intervalo de confianza o un valor-p).
Consecuencia: Cuando se aplican técnicas inferenciales clásicas (como pruebas t o intervalos de Wald) sin corregir por esta selección, se pierden las garantías clásicas. Específicamente, los intervalos de confianza no alcanzan la cobertura nominal y el control del error Tipo I se viola. Esto ha sido vinculado a la "crisis de replicación" en la ciencia.
Ejemplos Motivating:
1. Inferencia sobre un "ganador": Seleccionar el parámetro con el valor observado más alto (ej. el tratamiento más efectivo en un ensayo) y estimar su efecto. Esto sufre de la "maldición del ganador" (winner's curse), donde la estimación está sesgada hacia arriba.
2. Inferencia en árboles de regresión: Estimar la media de una región específica que fue identificada por un algoritmo como CART.
3. Inferencia después del agrupamiento (Clustering): Identificar tipos celulares mediante agrupamiento y luego probar la expresión diferencial de genes entre esos grupos estimados.

2. Metodología: Garantías Condicionales vs. No Condicionales

Los autores argumentan que la garantía estadística apropiada en estos contextos es la cobertura condicional, no la incondicional.

Cobertura Incondicional: Garantiza que el intervalo cubra el parámetro seleccionado en promedio sobre todas las posibles realizaciones de los datos y todas las posibles selecciones. Las técnicas de corrección múltiple (como Bonferroni) pueden lograr esto, pero a menudo fallan en proporcionar inferencia válida condicional a la selección específica que ocurrió.
Cobertura Condicional (Selección Selectiva): Garantiza que, dado que se seleccionó un parámetro específico (evento de selección $S(Y)=k$ $S (Y) = k$ ), el intervalo de confianza cubra ese parámetro con probabilidad $1-\alpha$ $1 - α$ .
- Argumento clave: Si seleccionamos incorrectamente (ej. elegimos un programa subóptimo), la inferencia condicional nos dice que nuestra estimación es incierta, mientras que métodos incondicionales podrían darnos una falsa sensación de seguridad.

3. Enfoques y la "Receta Unificada"

El artículo revisa y unifica varias estrategias para lograr cobertura condicional bajo una "receta general" (Box 1):

Dividir los datos en un conjunto de selección ( $Y^{sel}$ ) y un conjunto de inferencia ( $Y^{inf}$ ) (pueden solaparse o ser idénticos).
Seleccionar el objetivo de inferencia usando $Y^{sel}$ .
Realizar inferencia en $Y^{inf}$ , condicionando al menos al evento de que ese objetivo fue seleccionado.

Las principales metodologías revisadas son:

A. Inferencia Selectiva Condicional Completa (Full CSI)

Mecanismo: Utiliza todos los datos ( $Y^{sel} = Y^{inf} = Y$ ) tanto para seleccionar como para inferir, pero condiciona la distribución del estadístico de prueba al evento de selección exacto (o a un evento que lo implica).
Ventaja: No desperdicia información; utiliza toda la información disponible para la inferencia.
Desventaja: Requiere caracterizar analíticamente o muestrear de la distribución condicional, lo cual es computacionalmente difícil y a menudo conduce a intervalos de confianza extremadamente anchos (o infinitos) cuando el evento de selección es "borde" (poca información sobrante).

B. Dividir la Muestra (Sample Splitting)

Mecanismo: Divide los datos en dos conjuntos disjuntos. Se selecciona en uno y se infiere en el otro.
Ventaja: Simple de aplicar; permite el uso de herramientas estadísticas estándar ("out-of-the-box") en el conjunto de inferencia.
Desventaja: Desperdicia información (la información en el conjunto de selección no se usa para inferencia). Puede producir intervalos infinitos si el conjunto de inferencia no contiene datos para la región seleccionada.

C. Carving de Datos (Data Carving)

Mecanismo: Similar al sample splitting, pero utiliza el conjunto de selección para la selección y todos los datos para la inferencia, condicionando al evento de selección.
Ventaja: Más potente que el sample splitting porque utiliza más información para la inferencia.
Desventaja: Requiere derivar distribuciones condicionales complejas; no se pueden usar herramientas estándar directamente.

D. Delgadez de Datos (Data Thinning)

Mecanismo: Descompone cada observación en dos componentes independientes (ej. $Y^{sel}$ y $Y^{inf}$ ) mediante transformaciones estocásticas (adición de ruido controlado), preservando la independencia entre los conjuntos.
Ventaja: Permite inferencia con herramientas estándar y evita intervalos infinitos. Aplicable a familias de distribuciones específicas (Gaussiana, Poisson, etc.).
Desventaja: Limitado a ciertas distribuciones y requiere parámetros de dispersión conocidos.

E. Inferencia Selectiva Condicional Randomizada (Randomized CSI)

Mecanismo: Introduce ruido aleatorio en el proceso de selección (o en los datos) para suavizar el evento de selección, permitiendo usar todos los datos para la inferencia condicionada al evento randomizado.
Ventaja: Evita los intervalos infinitos de la Full CSI y es más flexible que el thinning.

F. Fisión de Datos (Data Fission)

Mecanismo: Una generalización del thinning donde los conjuntos de selección e inferencia no necesitan ser independientes, pero sus distribuciones marginales y condicionales son tratables.
Ventaja: Útil cuando el thinning no es posible (ej. datos binarios) o cuando hay dependencia inducida por estimación de parámetros de dispersión.

4. Resultados de Simulación y Aplicación Real

Estudio de Simulación (Inferencia en Árboles de Regresión)

Los autores compararon los métodos en un escenario de árboles de regresión (CART):

Cobertura: Todos los métodos selectivos (excepto el clásico) alcanzaron la cobertura nominal del 90%.
Calidad de Selección vs. Longitud del Intervalo: Existe una compensación (trade-off).
- La Full CSI ofrece la mejor calidad de selección (los árboles son más precisos) pero produce intervalos muy anchos, especialmente con señales débiles.
- El Sample Splitting y Data Thinning producen intervalos más cortos pero con menor calidad de selección si se asigna poca información a la selección.
- La Randomized CSI demostró ser superior en este contexto: logra una calidad de selección alta y produce intervalos más estrechos que el splitting o thinning, adaptándose a la fuerza de la señal sin sufrir de anchos infinitos.

Aplicación a Datos de Secuenciación de ARN de Célula Única (scRNA-seq)

Se aplicaron los métodos a datos reales de células sanguíneas (PBMCs) para identificar genes diferencialmente expresados entre tipos celulares agrupados.

Desafío: El sample splitting no es aplicable aquí porque los clústeres estimados en un subconjunto no se pueden transferir fácilmente al otro sin usar los datos de inferencia (violando la independencia).
Hallazgos:
- Los métodos clásicos produjeron valores-p no uniformes (falsos positivos) en datos de control negativo.
- Los métodos selectivos (Thinning, Fission, Full CSI) mejoraron el control de errores.
- Fisión de Datos (Data Fission) y Full CSI mostraron resultados prometedores, aunque la Full CSI fue sensible a la aleatoriedad inicial del algoritmo de agrupamiento y a los preprocesamientos.
- Se observó que diferentes supuestos distribucionales (Poisson vs. Binomial Negativo) afectan los resultados, destacando la dificultad de comparar métodos en datos reales sin verificar supuestos.

5. Contribuciones Clave y Significancia

Unificación Teórica: El artículo proporciona un marco unificado ("receta") que conecta metodologías dispares (splitting, carving, thinning, fission, CSI) bajo el principio de condicionar al evento de selección.
Defensa de la Cobertura Condicional: Argumenta convincentemente que la inferencia condicional es la garantía científica más relevante, ya que evalúa la validez de la conclusión dado que se tomó una decisión específica basada en los datos.
Análisis de Compensaciones (Trade-offs): Ilustra claramente el dilema entre la calidad de la selección (precisión del modelo elegido) y la eficiencia de la inferencia (longitud del intervalo), mostrando cómo diferentes métodos gestionan esta compensación.
Identificación de Desafíos Prácticos:
- La necesidad de supuestos distribucionales fuertes en muchos métodos selectivos.
- La falta de software generalizado y fácil de usar para científicos de datos.
- La dificultad de aplicar estos métodos a algoritmos de agrupamiento complejos (como los basados en grafos en scRNA-seq).

Conclusión:
El artículo concluye que, aunque no existe un método "mejor" universal, la inferencia selectiva es crucial para la ciencia reproducible. El futuro de la disciplina depende del desarrollo de métodos más flexibles, con menos supuestos distribucionales y herramientas de software accesibles que permitan a los científicos integrar estas técnicas en sus flujos de trabajo reales sin sacrificar la flexibilidad analítica.