Conformal calibration and look-elsewhere effect in anomaly… — Explicación divulgativa

Autores originales: Jack Y. Araz, Michael Spannowsky

Publicado 2026-06-15

📖 6 min de lectura🧠 Análisis profundo

Autores originales: Jack Y. Araz, Michael Spannowsky

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

Imagina que eres un detective intentando encontrar un tipo específico de moneda falsificada escondida dentro de una enorme bolsa de monedas genuinas. Tienes un nuevo "detector de anomalías" de alta tecnología (un modelo de aprendizaje automático) que le otorga a cada moneda una "puntuación de extrañeza". Cuanto mayor sea la puntuación, más probable es que sea falsa.

El problema es que este detector es como un adivino errante. Te da una puntuación como "17.5", pero ese número no significa nada por sí solo. ¿Es 17.5 algo raro? ¿Es común? Sin una regla para medirlo, no puedes saber si has encontrado una moneda falsa o simplemente una moneda normal que resultó parecer un poco extraña.

Además, debido a que el detector escanea miles de monedas, es inevitable que encuentre algunas que parezcan "extrañas" por pura suerte. Si no tienes en cuenta cuántas veces miraste, podrías pensar que encontraste una moneda falsa cuando en realidad solo tuviste suerte.

Este artículo propone una nueva "capa de calibración" para solucionar estos problemas. Así es como funciona, utilizando analogías sencillas:

1. La regla rota (El problema de la calibración)

Imagina que tu detector es una báscula que te dice cuánto pesa una moneda, pero la báscula está rota. Dice que una moneda normal pesa 17.5 gramos. No sabes si eso es pesado o ligero porque no has pesado primero un montón de monedas que sabes que son normales para establecer una base de referencia.

Los autores utilizan una herramienta estadística llamada Predicción Conforme (Conformal Prediction) para construir una nueva regla. Toman un montón de monedas que saben que son normales (el "conjunto de calibración") y observan cómo el detector las puntúa. Luego, mapean las puntuaciones brutas del detector a un valor p (p-value).

La analogía: En lugar de decir "Esta moneda tiene 17.5 de extrañeza", la nueva regla dice: "Solo el 1% de las monedas normales se ven así de extrañas". Ahora tienes un número claro y honesto.

2. La trampa del "mirar en otro lugar" (Look-Elsewhere Trap)

Si escaneas una bolsa entera de monedas, eventualmente encontrarás una que parezca ligeramente inusual solo por azar. Si escaneas 1,000 monedas, encontrar una "extraña" no es gran cosa. Pero si solo hubieras mirado una moneda, sería una noticia enorme.

El artículo combina su nueva regla con un método llamado corrección de Gross–Vitells.

La analogía: Esto es como un juez que sabe que lanzaste una moneda 1,000 veces. Si dices: "¡Saqué cara 10 veces seguidas!", el juez no solo mira esa racha; mira las 1,000 lanzadas en su totalidad. Calcula las probabilidades de obtener esa racha en cualquier parte de la bolsa. Esto evita que grites "¡Moneda Falsa!" solo porque tuviste suerte.

3. El fraude del "Esculpido" (Fallo de intercambiabilidad)

Este es el mayor descubrimiento del artículo. En la física de partículas, los científicos suelen utilizar "bandas laterales" (áreas junto a la zona objetivo) para adivinar cómo es el fondo. Asumen que el fondo en las bandas laterales es el mismo que el fondo en el área objetivo.

Los autores descubrieron que en muchos modelos de aprendizaje automático, esta suposición es falsa. El modelo aprende a utilizar características que están secretamente vinculadas a la ubicación.

La analogía: Imagina que estás buscando una moneda falsa en un frasco específico. Para calibrar tu detector, miras las monedas en un frasco al lado de este. Pero tu detector ha aprendido que "las monedas en el frasco izquierdo suelen ser más pesadas" y "las monedas en el frasco derecho suelen ser más ligeras". Incluso si todas las monedas son reales, tu detector pensará que las monedas en el frasco derecho son "extrañas" solo porque están en el frasco derecho.
El resultado: Sin corregir esto, el detector crea una "señal fantasma". En la prueba del artículo, este "fantasma" se veía como un descubrimiento de 46 sigmas (que es astronómicamente enorme, como encontrar una aguja en una galaxia). Era una ilusión completa causada por el sesgo del detector.

4. La solución: La corrección "Ponderada"

Los autores corrigen esto aplicando un peso a la calibración.

La analogía: Se dan cuenta de que las monedas del "frasco izquierdo" y el "frasco derecho" son ligeramente diferentes. Así que, cuando usan el frasco izquierdo para calibrar el frasco derecho, le dan a las monedas del frasco izquierdo un "descuento" o "ajuste" para que coincidan con el perfil del frasco derecho.
El resultado: Cuando aplican este peso, la señal falsa de 46 sigmas desaparece por completo. Cae a 0.2 sigma, que es simplemente ruido de fondo normal. El detector deja de mentir.

5. La característica de "Seguridad Garantizada" (Fail-Safe)

Una de las mejores cosas de este método es que es honesto incluso cuando las cosas salen mal.

La analogía: Si tus monedas de calibración están secretamente contaminadas con algunas falsificaciones, un detector estándar podría empezar a gritar silenciosamente "¡Falso!" y nunca lo sabrías. Pero este nuevo método tiene un autocontrol. Si la calibración es mala, la "regla" se verá torcida (los valores p no serán uniformes). Dirá: "Oye, mi regla está rota", en lugar de darte un falso descubrimiento.

Resumen de resultados

Los autores probaron esto con datos públicos del LHC (Gran Colisionador de Hadrones):

Métodos Estándar: Cuando usaron técnicas estándar en estos datos, el detector inventó señales falsas de 10 sigmas o 5 sigmas en áreas donde no existía ninguna señal. Estaba alucinando descubrimientos.
El Nuevo Método: Cuando añadieron su capa de calibración, esas señales falsas desaparecieron. El detector reportó correctamente "No se encontró señal" (un resultado nulo).
Señales Reales: Cuando sí pusieron una señal real, el método aún podía encontrarla (si la señal era lo suficientemente fuerte), demostrando que no simplemente "apagó" el detector; solo dejó de mentir.

La conclusión principal:
Este artículo no inventa un nuevo detector de partículas. En su lugar, inventa una capa de veracidad que se asienta sobre cualquier detector. Asegura que cuando un detector dice "Hemos encontrado algo", realmente signifique "Hemos encontrado algo", y no simplemente "Tuvimos suerte" o "Nuestras matemáticas estaban sesgadas". Convierte una puntuación bruta y confusa en una declaración científica defendible y auditable.

Resumen Técnico: Calibración Conforme y Efecto de Búsqueda en Todas Partes en la Detección de Anomalías para Búsquedas de Nueva Física

Planteamiento del Problema
La detección de anomalías (AD, por sus siglas en inglés) basada en aprendizaje automático se ha convertido en una estrategia primordial para la búsqueda de nueva física más allá del Modelo Estándar. Sin embargo, la interpretación estadística de los puntajes de AD se ha quedado rezagada respecto a su desarrollo. Un puntaje de anomalía bruto carece de un significado calibrado; un valor no transmite inherentemente la probabilidad de una fluctuación del fondo. Los modelos flexibles que escanean múltiples regiones, observables y direcciones latentes sufren un agudo "efecto de búsqueda en todas partes" (multiplicidad), lo que infla las tasas de falsos descubrimientos. Los flujos de trabajo experimentales existentes dependen de fórmulas asintóticas de verosimilitud de perfil y factores de ensayos (por ejemplo, la teoría de Gross–Vitells) que asumen un modelo de fondo correctamente modelado. Estos métodos son ciegos ante el error de modelado del fondo, un modo de fallo al que la AD es particularmente propensa. Cuando los datos de entrenamiento y evaluación se comparten o cuando las características están correlacionadas con la variable resonante (por ejemplo, la masa invariante), los procesos estándar producen $p$ -valores mal calibrados, lo que puede fabricar falsos descubrimientos.

Metodología
Los autores proponen una capa de calibración construida sobre predicción conforme que transforma cualquier puntaje de anomalía en una significancia defendible con garantías de muestra finita independientes de la distribución. La metodología avanza a través de varias etapas clave:

Calibración Conforme Dividida (Split Conformal Calibration): Los autores definen un $p$ -valor conforme de un solo lado, $\hat{p}(s)$ , para un puntaje de prueba $s$ basado en un conjunto de calibración de $n$ puntajes de solo fondo. Esto mapea los puntajes brutos a $p$ -valores tales que, bajo intercambiabilidad, los $p$ -valores son super-uniformes ( $P(\hat{p} \le \alpha) \le \alpha$ ). Esto proporciona una garantía de muestra finita independiente de la forma de la distribución de los puntajes.
Abordaje de Fallos de Intercambiabilidad: Las búsquedas resonantes suelen violar el supuesto de intercambiabilidad porque la distribución de puntajes del fondo en la región de señal (SR) difiere de la de las bandas laterales (SB) debido a las correlaciones entre las características de la subestructura de chorros (jets) y la variable resonante (masa).
- Predicción Conforme Ponderada: Para corregir este desplazamiento de covariables, los autores emplean un $p$ -valor conforme ponderado utilizando una razón de verosimilitud $w(x) = dQ/dP$ (donde $Q$ es la distribución de la SR y $P$ es la distribución de la SB). Este peso se estima sin etiquetas directamente de los datos.
- Calibración Mondrian: Para la heterogeneidad donde el fondo varía a través de los bins de la variable resonante, los autores sugieren la calibración Mondrian (condicional por grupos), que calibra por separado dentro de cada bin para asegurar la validez local.
Robustez ante la Contaminación: El marco aborda la filtración de señal en las regiones de control. El Teorema 5 establece que si la contaminación de la señal en el conjunto de calibración es estocástica (los eventos de señal tienen puntajes más altos que el fondo), el procedimiento sigue siendo válido y se vuelve conservador, fallando de forma segura en lugar de producir falsas alarmas.
Corrección del Efecto de Búsqueda en Todas Partes (Look-Elsewhere): Los $p$ -valores locales conformes se agregan en un campo de conteo $Z(m)$ a través de ventanas de escaneo. Los autores aplican la teoría de cruce de umbral (up-crossing) de Gross–Vitells a este campo para calcular una significancia global. Mientras que los $p$ -valores locales tienen garantías de muestra finita, el paso global se trata como un límite asintótico, validado contra pseudoexperimentos de solo fondo.
Control de la Tasa de Falsos Descubrimientos (FDR): Para listas cortas de múltiples regiones, se integra el procedimiento de Benjamini–Hochberg para controlar el FDR, aprovechando la dependencia positiva de los $p$ -valores conformes derivados de un conjunto de calibración compartido.

Contribuciones Clave

Una Capa de Calibración: El artículo introduce una capa modular que puede aplicarse a cualquier detector de anomalías existente sin necesidad de reentrenar el detector mismo. Convierte los puntajes no calibrados en $p$ -valores locales válidos.
Diagnóstico y Corrección de la Intercambiabilidad: El método proporciona una herramienta de diagnóstico (verificando la uniformidad de los $p$ -valores del fondo) para detectar fallos de intercambiabilidad causados por correlaciones entre características y masa, ofreciendo una corrección ponderada sin etiquetas para restaurar la validez.
Garantías de Muestra Finita: A diferencia de los métodos asintóticos, la capa conforme ofrece una validez rigurosa de muestra finita que es robusta al error de modelado del fondo, siempre que se cumplan los supuestos (intercambiabilidad o desplazamiento de covariables corregible).
Integración con Factores de Ensayo: El trabajo cierra la breancia entre la predicción conforme y la estadística de descubrimiento en física de altas energías (HEP) al combinar la calibración local de muestra finita con el marco de significancia global de Gross–Vitells.

Resultados
La metodología fue probada en el conjunto de datos LHC Olympics 2020 R&D (fondo de QCD dijet con una resonancia $Z' \to XX$ inyectada).

Detección de la Mala Calibración: En datos reales, un clasificador calibrado mediante bandas laterales exhibió un fallo de intercambiabilidad significativo. Los $p$ -valores del fondo eran anti-conservadores, con $P(\hat{p} \le 0.05) \approx 0.087$ en lugar del 0.05 nominal.
Corrección de Excesos Espurios:
- Un conteo ingenuo de eventos con $p \le 0.05$ en la región de señal produjo un exceso espurio de $\sim 46\sigma$ .
- La aplicación de la corrección ponderada sin etiquetas restauró la tasa de fondo al nivel nominal, reduciendo la significancia a un nulo honesto ( $Z \approx 0.2$ ).
- En un escaneo de masa amplia ciego (reentrenando el detector en cada ventana), los procedimientos estándar asintóticos y los procedimientos conformes no ponderados fabricaron excesos de $\gtrsim 10\sigma$ en ventanas libres de señal. La capa conforme ponderada no produjo falsas alarmas, con significancias globales consistentes con el nulo.
Validación de la Significancia Global: Se verificó la tasa global de falsos positivos del procedimiento conforme ponderado mediante pseudoexperimentos de solo fondo, mostrando un control empírico cercano al nivel nominal.
Recuperación de Señal: En un estudio de control positivo con inyecciones de señal más fuertes ( $S/B \approx 1.3\%$ ) y mínima contaminación de bandas laterales, la cadena ponderada logró recuperar una significancia global de $\sim 7.4\sigma$ , demostrando que el método no suprime señales genuinas, sino que solo corrige sesgos sistemáticos.

Significancia y Reivindicaciones
El artículo afirma proporcionar un camino auditable y agnóstico al detector desde un puntaje de anomalía no calibrado hasta una significancia global consciente de los factores de ensayo.

El valor principal no es un nuevo detector, sino una capa de calibración y significancia que hace explícitos y verificables los supuestos.
Expone fallos "silenciosos" (como el esculpido del fondo) que los procesos asintóticos estándar pasan por alto, convirtiéndolos en no uniformidades visibles o corrigiéndolos mediante ponderación.
Los autores enfatizan que, si bien los $p$ -valores locales tienen garantías de muestra finita, la significancia global depende de supuestos asintóticos (Gross–Vitells) que son validados empíricamente en su estudio.
El trabajo destaca que el "efecto de búsqueda en todas partes" en la AD se ve exacerbado por la multiplicidad de regiones y la correlación entre las características y la variable resonante, y que la predicción conforme ofrece un marco riguroso para abordar estos modos de fallo específicos.

El artículo concluye que, si bien el método no resuelve todos los sistemáticos del fondo (por ejemplo, el error de modelado desconocido y no parametrizado), mejora significativamente la fiabilidad de las búsquedas de AD al asegurar que las significancias reportadas no sean artefactos de fallos de calibración. Como trabajo futuro, se identifica la integración de parámetros de molestia (sistemáticos del detector) en el marco conforme y la comparación directa de este enfoque con detectores desacoplados de la masa.

Conformal calibration and look-elsewhere effect in anomaly detection for new-physics searches