Bayes, E-values and Testing

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás dirigiendo un experimento científico o un sistema de inteligencia artificial que toma decisiones en tiempo real, como un médico que monitorea la salud de un paciente o un algoritmo que decide qué anuncios mostrar.

En el pasado, los científicos tenían una regla estricta: "No puedes mirar los resultados hasta que hayas recolectado una cantidad fija de datos". Si mirabas antes de tiempo y decidías parar porque "parecía que funcionaba", cometías un error estadístico (como si un jugador de poker contara sus cartas antes de que el repartidor terminara de repartir).

Este artículo presenta una nueva forma de pensar, llamada E-valores y E-procesos, que permite mirar los datos cuando quieras y detenerse cuando quieras, sin romper las reglas de la probabilidad.

Aquí tienes la explicación sencilla, usando analogías:

1. El Problema: El "Juez Estricto" vs. El "Árbitro Flexible"

Imagina que tienes un juego de azar (como lanzar una moneda).

El método antiguo (P-valores): Es como un juez que te dice: "No puedes contar los puntos hasta que hayas lanzado la moneda exactamente 100 veces. Si te detienes en la 50 porque llevas 45 caras, te descalifico". Esto es malo para la vida real, donde queremos saber si algo funciona ahora.
El nuevo método (E-valores): Es como un árbitro que te da un marcador de apuestas. Si el marcador sube mucho, sabes que la moneda está trucada. La magia de este nuevo método es que el marcador está diseñado matemáticamente para que, incluso si decides detener el juego en el segundo 3 o en el segundo 300, la probabilidad de que hayas ganado por pura suerte sea siempre muy baja.

2. La Gran Idea: Tres Capas de un Pastel

Los autores dicen que para entender esto bien, no debemos mezclar todo. Imagina que construimos un edificio de evidencia en tres pisos separados:

🏗️ Piso 1: La Representación (Los Cimientos)

¿Qué es? Es la forma en que escribimos la evidencia.
La analogía: Imagina que tienes dos recetas para hacer un pastel. Una es la "receta oficial" (Probabilidad A) y otra es la "receta sospechosa" (Probabilidad B).
El hallazgo: El artículo demuestra que, si quieres ser lo más eficiente posible (como un chef que quiere saber rápido si la receta está mal), la única forma correcta de medir la diferencia es usando la Relación de Verosimilitud (comparar directamente las dos recetas). Es la única herramienta que funciona perfectamente bajo la "lógica de las pérdidas" (log-loss). Si usas otras herramientas, podrías estar midiendo algo, pero no de la forma más inteligente.

🛡️ Piso 2: La Validez (El Escudo)

¿Qué es? Asegurarse de que no nos estafamos a nosotros mismos.
La analogía: Imagina un escudo mágico. No importa cuánto tiempo pase o cuántas veces mires el marcador, el escudo garantiza que la probabilidad de que el sistema falle (diga que hay un error cuando no lo hay) nunca supera un límite seguro.
El hallazgo: Los autores muestran que cualquier proceso que actúe como una "martingala" (un tipo de juego justo donde no puedes ganar dinero sistemáticamente si las reglas son justas) sirve como este escudo. Esto permite combinar diferentes pruebas o detenerse en cualquier momento sin romper el escudo.

🚦 Piso 3: La Decisión (El Semáforo)

¿Qué es? Decidir cuándo parar.
La analogía: Tienes un semáforo. ¿A qué altura pones la luz roja para detener el tráfico?
El hallazgo: Aquí está la gran diferencia.
- Si pones la luz roja basándote solo en el "escudo" (valididad), podrías tardar mucho en detectar un problema. Es como poner el semáforo muy alto; el tráfico pasa mucho antes de que se detenga.
- Si usas la "receta oficial" (Relación de Verosimilitud) del Piso 1, puedes poner el semáforo en el lugar exacto para detectar el problema lo más rápido posible. El artículo demuestra matemáticamente que usar la herramienta correcta te ahorra tiempo y datos.

3. La Trampa de los "Códigos" (El Error Común)

El artículo advierte sobre un error común en la informática moderna.

La analogía: Imagina que quieres comprimir un archivo de video para enviarlo rápido (como el método MDL/NML que usan los ingenieros). A veces, los algoritmos de compresión más eficientes miran todo el archivo completo para decidir cómo comprimir el primer segundo.
El problema: Si usas esos códigos como tu "marcador de apuestas" en tiempo real, fallan. ¿Por qué? Porque el algoritmo necesita saber el final del video para calcular el principio, pero en la vida real, el video aún no ha terminado.
La solución: Debes usar "códigos precionales" (que miran solo lo que ya pasó). El artículo dice: "No uses la compresión perfecta si quieres seguridad en tiempo real; usa una compresión que respete el flujo del tiempo".

4. ¿Por qué importa esto en la vida real?

Este marco de trabajo es como un manual de instrucciones para construir sistemas de IA y experimentos más seguros y rápidos:

Medicina: Puedes monitorear un nuevo fármaco y detener el estudio si funciona increíblemente bien (o es terrible) en cualquier momento, sin tener que esperar al final del año.
IA en Producción: Si un sistema de reconocimiento facial empieza a fallar, el sistema puede alertarte inmediatamente, sin necesidad de esperar a que se acumulen miles de errores.
A/B Testing: Las empresas pueden probar dos versiones de una web y cambiar al ganador en cuanto tengan suficiente evidencia, ahorrando dinero y tiempo.

En Resumen

Los autores han creado un mapa claro para separar tres cosas que antes se mezclaban:

Qué medimos (la herramienta matemática correcta).
Por qué es seguro (el escudo contra el azar).
Cuándo actuar (el momento óptimo para detenerse).

Al separar estas capas, nos aseguran que podemos tomar decisiones rápidas y seguras en un mundo de datos que nunca deja de fluir, sin caer en trampas estadísticas. Es como tener un GPS que te dice no solo dónde estás, sino cuándo es seguro girar, sin importar cuánto tiempo lleves conduciendo.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Bayes, E-valores y Pruebas Secuenciales

1. Planteamiento del Problema

Los sistemas de aprendizaje automático desplegados (como clasificadores de riesgo, pruebas A/B adaptativas o predictores conformales) generan datos y toman decisiones de forma continua. El problema central es que la inferencia estadística clásica (basada en valores-p e intervalos de confianza de muestra fija) pierde sus garantías de control de error bajo paradas opcionales (cuando el momento de detener la recolección de datos depende de los datos mismos).

Aunque los E-valores y los E-procesos (supermartingalas no negativas) ofrecen una solución teórica para pruebas secuenciales válidas en cualquier momento (anytime-valid), la literatura actual tiende a confundir tres aspectos distintos:

Representación: ¿Qué es la evidencia? (¿Es una razón de verosimilitud? ¿Un código de longitud?).
Validez: ¿Por qué es válida? (¿Propiedad de supermartingala? ¿Desigualdad de Ville?).
Decisión: ¿Cómo se usa? (¿Umbral fijo? ¿Límite de Bayes óptimo?).

Esta confusión lleva a errores prácticos: un código de longitud puede parecer un E-valor sin serlo, o un E-valor válido puede tener potencia estadística nula si sus umbrales no están calibrados correctamente. El objetivo del artículo es desambiguar estos conceptos mediante un marco estructurado.

2. Metodología: El Marco de Cálculo Tipado

Los autores proponen un marco de cálculo tipado que descompone la evidencia secuencial en tres capas lógicamente distintas pero interconectadas:

Capa de Representación (Representation):
- Se centra en la geometría de la razón de verosimilitud (derivada de Radon-Nikodým) y la pérdida logarítmica.
- Establece cuándo la evidencia debe tener una estructura de razón de verosimilitud (Likelihood Ratio, LR) y cuándo no.
Capa de Validez (Validity):
- Se basa en la propiedad de supermartingala bajo la hipótesis nula ( $H_0$ ).
- Garantiza el control de errores de Tipo I en cualquier momento de parada mediante la Desigualdad de Ville.
Capa de Decisión (Decision):
- Trata el diseño de los límites de parada ( $\tau_b$ ) y la calibración de la eficiencia.
- Analiza la velocidad de crecimiento de la evidencia y el tiempo de detección esperado.

El marco demuestra que la optimalidad en una capa no implica optimalidad en otra y que ciertas operaciones (como tomar el máximo de dos procesos) pueden violar la validez si no se respetan las reglas de composición.

3. Contribuciones Clave y Resultados Principales

El artículo presenta seis resultados teóricos fundamentales:

A. Canonicidad bajo Pérdida Logarítmica (Teorema 3.1):
- Bajo predicción coherente y minimización del riesgo de Bayes con pérdida logarítmica, la razón de verosimilitud (Likelihood Ratio) es la única representación canónica de evidencia.
- Cualquier otro proceso de evidencia válido (E-proceso) que no sea una razón de verosimilitud no minimizará el riesgo de Bayes en esta subclase.
B. Límites de Parada de Desviación Moderada (Teorema 5.4 y Proposición 5.9):
- Se demuestra que el tiempo de parada basado en razones de verosimilitud ( $\tau_b$ ) satisface una ley de crecimiento precisa: $E_1[\tau_b] = (\log b)/\mu + O(\sqrt{\log b})$ , donde $\mu$ es la divergencia de Kullback-Leibler (KL).
- Resultado crítico: Los E-procesos que solo cumplen con la validez (sin estructura LR) no garantizan una tasa de crecimiento exponencial. Están limitados a la escala de calibración $1/b$, lo que implica una eficiencia estadística inferior (tiempos de detección mucho más largos) en comparación con los métodos basados en LR.
C. Obstrucción Computacional (Proposición 6.1):
- Se establece una barrera fundamental entre la teoría de la información y la inferencia secuencial.
- Los códigos óptimos de arrepentimiento (como NML o MDL) no generan E-procesos válidos en general. Esto se debe a que sus constantes de normalización dependen del tamaño total de la muestra ( $n$ ), violando la factorización secuencial necesaria para la propiedad de supermartingala.
- En cambio, los códigos presecuenciales (que actualizan predictores paso a paso) sí generan E-procesos válidos.
D. Álgebra de la Clase de Evidencia (Teorema 4.2):
- La clase de E-procesos forma un conjunto convexo cerrado bajo mezclas, paradas predecibles y escalado.
- Se demuestra que esta es la clase máxima posible que preserva el control de Ville. Operaciones como el máximo puntual de dos E-procesos no preservan la validez.
E. Unicidad de la Regla de Puntuación (Proposición 7.2):
- Entre todas las reglas de puntuación estrictamente propias, la pérdida logarítmica (log-loss) es la única que induce procesos de evidencia multiplicativos que son martingalas bajo $H_0$ . Otras reglas (como el puntaje Brier) generan supermartingalas estrictas que decaen exponencialmente, haciéndolas poco informativas como estadísticos de prueba.
F. Conexión con Predicción Conformal (Proposición 8.3):
- Bajo el supuesto de intercambibilidad, los E-valores basados en no-conformidad proporcionan garantías de cobertura válidas en cualquier momento para predicción secuencial, extendiendo la validez de los métodos conformales más allá de las pruebas fijas.

4. Significado e Implicaciones Prácticas

El trabajo tiene implicaciones profundas para la práctica del aprendizaje automático y la estadística:

Validación de Modelos en Línea: Para la monitorización de modelos desplegados, los autores recomiendan el uso de E-procesos basados en razones de verosimilitud (cuando la estructura de pérdida lo permite) en lugar de E-valores genéricos calibrados solo por Markov/Ville. Esto reduce drásticamente el tiempo necesario para detectar desviaciones (cambios de distribución o drift).
Selección de Modelos y MDL: Existe una advertencia directa para los practicantes que utilizan el Principio de Longitud de Descripción Mínima (MDL/NML) en entornos secuenciales: no deben usar las longitudes de código NML directamente como E-valores, ya que pierden la garantía de validez "en cualquier momento". Deben usar predictores presecuenciales en su lugar.
Diseño de Experimentos Adaptativos: El marco permite combinar evidencia de fases exploratorias y confirmatorias (mediante "stitching" o costura de procesos) sin necesidad de ajustar el nivel de significancia ( $\alpha$ -spending), manteniendo la validez global.
Claridad Conceptual: El marco tipado resuelve la confusión histórica al separar claramente qué hace que un método sea válido (supermartingala) de qué lo hace eficiente (estructura LR) y cómo se decide cuándo parar (límites óptimos).

5. Conclusión

El artículo proporciona una fundamentación teórica rigurosa para la inferencia secuencial moderna. Demuestra que, aunque la validez (control de error) es una propiedad puramente probabilística (supermartingala), la eficiencia estadística depende críticamente de la representación subyacente (razón de verosimilitud). Ignorar esta distinción conduce a métodos que son válidos pero ineficientes, o a métodos que parecen válidos (como ciertos códigos de compresión) pero que fallan en la práctica secuencial. El marco propuesto sirve como una arquitectura de despliegue para sistemas de IA seguros y adaptativos.