Autores originales: Gordan Prastalo, Kevin Maik Jablonka

Publicado 2026-05-14

📖 5 min de lectura🧠 Análisis profundo

Autores originales: Gordan Prastalo, Kevin Maik Jablonka

Artículo original bajo licencia CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta es una explicación generada por IA del artículo a continuación. No ha sido escrita ni avalada por los autores. Para mayor precisión técnica, consulte el artículo original. Leer descargo de responsabilidad completo

El Problema: El Problema de la "Pronóstico del Tiempo"

Imagina que eres un científico tratando de predecir qué moléculas serán buenos medicamentos. Construyes un modelo informático para hacer esto.

Ahora, imagina que entrenas ese modelo con un conjunto específico de datos. Predice que la Molécula A es una "ganadora" (funcionará como un fármaco).

Pero luego, decides reentrenar el modelo. No cambias las reglas ni la fuente de datos; simplemente usas una muestra aleatoria ligeramente diferente de esos mismos datos (como sacar una nueva mano de cartas del mismo mazo).

El Resultado Sorprendente:
Cuando reentrenas el modelo, de repente dice que la Molécula A es una "perdedora" y que la Molécula B es la nueva ganadora.

El artículo llama a esto "Inestabilidad de Predicción entre Muestras". Es la tasa a la que el modelo cambia su decisión simplemente porque mezclaste ligeramente los datos de entrenamiento.

El Hallazgo del Artículo: En 9 pruebas químicas diferentes, la precisión general del modelo solo cambió un poco (aproximadamente 1–4%). Sin embargo, la decisión específica para moléculas individuales cambió del 8% al 22% de las veces.
La Analogía: Imagina un juez que es 95% preciso en general. Pero si le pides que juzgue 100 casos específicos, y le pides que vuelva a juzgar los mismos 100 casos después de tomar un descanso para almorzar diferente, podría cambiar su veredicto en 20 de ellos. Eso es mucha inestabilidad para los casos específicos que más importan.

Por Qué las "Soluciones" Actuales No Funcionan

Los científicos han intentado solucionar esto utilizando herramientas estándar de "incertidumbre", como:

Ensambles Profundos: Entrenar 5 modelos diferentes y promediar sus respuestas.
Dropout Monte Carlo (MC Dropout): Apagar partes del modelo aleatoriamente durante las pruebas para ver cuánto se tambalea la respuesta.
Promedio Estocástico de Pesos: Suavizar las matemáticas internas del modelo.

El Veredicto del Artículo: Estas herramientas son como intentar arreglar una cámara inestable ajustando el enfoque de la lente (los ajustes internos del modelo) mientras la cámara sigue siendo sostenida por una mano que tiembla (los datos).

Estos métodos arreglan la "lente" pero ignoran la "mano que tiembla".
El artículo encontró que estos métodos no redujeron la inestabilidad. No evitaron que el modelo cambiara sus decisiones cuando los datos cambiaban.

La Solución: Dos Nuevos Métodos

Los autores proponen dos métodos que realmente funcionan porque abordan la "mano que tiembla" (los datos) en lugar de solo la "lente".

1. K-Bootstrap Bagging (El Enfoque del "Comité")

Cómo funciona: En lugar de entrenar un solo modelo, entrenas a todo un comité de modelos (por ejemplo, 5 de ellos). Cada miembro del comité se entrena con una muestra aleatoria ligeramente diferente de los datos. Cuando necesitas una respuesta, le preguntas a todo el comité y tomas el voto promedio.
El Resultado: Esto reduce la tasa de cambios en un 40–54%.
El Truco: Requiere 5 veces más potencia informática para entrenar 5 modelos en lugar de 1.

2. Twin-Bootstrap (El Enfoque de las "Hermanas Gemelas")

Cómo funciona: Esta es la principal invención del artículo. Imagina entrenar dos redes neuronales "gemelas" al mismo tiempo.
- La Gemela A aprende de la Muestra X.
- La Gemela B aprende de la Muestra Y (una muestra ligeramente diferente).
- El Secreto: Cada vez que aprenden, las gemelas se ven obligadas a hablar entre sí. Si no están de acuerdo sobre una molécula, reciben una "penalización" (una pérdida de consistencia) para obligarlas a ponerse de acuerdo.
El Resultado:
- Reduce la tasa de cambios en un 45% adicional en comparación con el método estándar de comité.
- Logra esto con solo 2 veces la potencia informática (entrenando a dos gemelas en lugar de cinco modelos separados).
- Mantiene la precisión tan alta como la del modelo original.

Por Qué Esto Importa (El Impacto en el "Mundo Real")

El artículo argumenta que en los laboratorios científicos, las decisiones se toman molécula por molécula.

El Escenario: Un científico usa el modelo para elegir las 10 mejores moléculas para sintetizar en un laboratorio.
El Riesgo: Si el modelo tiene una alta "inestabilidad", el científico podría elegir la Molécula #1 hoy. Pero si reentrenan el modelo mañana (lo cual sucede a menudo en la ciencia), el modelo podría decir: "En realidad, la Molécula #1 es mala, intentemos la Molécula #10".
El Costo: Esto desperdicia tiempo y dinero. El laboratorio podría sintetizar la molécula incorrecta, o desperdiciar esfuerzos reevaluando la misma lista.

El artículo sugiere que los informes científicos siempre deben incluir una "Puntuación de Inestabilidad" junto con la precisión. Solo saber que un modelo es "90% preciso" no es suficiente; necesitas saber si esa precisión es estable o si el modelo está simplemente adivinando salvajemente cada vez que actualizas la página.

Resumen

El Problema: Los modelos de IA científica a menudo cambian sus predicciones específicas cuando se reentrenan con datos ligeramente diferentes, incluso si su puntuación general parece buena.
La Vieja Forma: Los trucos estándar para medir la incertidumbre (como los ensambles) no solucionan este problema específico.
La Nueva Forma:
1. Bagging: Entrenar un gran comité de modelos (funciona bien, pero es costoso).
2. Twin-Bootstrap: Entrenar dos modelos juntos y obligarlos a ponerse de acuerdo (funciona aún mejor y es más barato).
El Objetivo: Hacer que la IA científica sea lo suficientemente confiable para que un científico pueda confiar en la molécula específica que recomienda, sabiendo que la recomendación no cambiará solo porque ejecutaron el código de entrenamiento una vez más.

Resumen Técnico: Reducción del Cambio de Predicción entre Muestras en el Aprendizaje Automático Científico

Definición del Problema: Cambio de Predicción entre Muestras

Las pruebas de referencia (benchmarks) de aprendizaje automático (ML) científico suelen informar el rendimiento predictivo agregado (por ejemplo, precisión, AUC), pero no reportan la estabilidad de las predicciones individuales cuando el modelo se vuelve a entrenar sobre una muestra diferente de la misma población de entrenamiento. Los autores definen el cambio de predicción entre muestras como la fracción de predicciones de prueba que cambian de etiquetas de clase entre dos modelos entrenados sobre bootstraps independientes del mismo conjunto de entrenamiento.

Mientras que la precisión agregada a menudo permanece estable (variando solo entre 1.3 y 4.2 puntos porcentuales entre reentrenamientos), los autores demuestran que las predicciones individuales son altamente inestables. En nueve pruebas de referencia de química, el 8.0% al 21.8% de las moléculas de prueba cambian su clase predicha entre reentrenamientos. Esta "brecha de estabilidad por predicción" es crítica para flujos de trabajo operativos en laboratorios de bucle cerrado, optimización bayesiana y cribado virtual, donde los resultados del modelo dictan directamente las decisiones experimentales (por ejemplo, qué molécula sintetizar). Un alto cambio implica que las moléculas específicas seleccionadas para síntesis o cribado son sensibles a la muestreo aleatorio de los datos de entrenamiento, lo que hace que el flujo de trabajo sea no reproducible.

Metodología y Soluciones Propuestas

El artículo evalúa técnicas estándar de incertidumbre del lado de los parámetros frente a métodos del lado de los datos para determinar cuáles pueden reducir este cambio.

1. Fallo de las Técnicas del Lado de los Parámetros

Los autores prueban tres métodos estándar que muestrean sobre los pesos del modelo con datos fijos:

Ensambles Profundos: Promedio de predicciones de $K$ modelos con inicializaciones diferentes.
Dropout de Monte Carlo (MC): Promedio de pasadas forward estocásticas de un solo modelo.
Promedio de Pesos Estocásticos (SWA): Promedio de pesos de una única trayectoria de entrenamiento.

Resultado: Estos métodos no reducen consistentemente el cambio entre muestras. En las nueve pruebas de referencia, desplazan la tasa de cambio de clase entre $-22.3\%$ y $+12.5\%$ en relación con la Minimización del Riesgo Empírico (ERM), sin mostrar una señal consistente de mejora. Los autores argumentan que esto se debe a que estos métodos abordan la varianza de los parámetros manteniendo constante el eje de los datos, mientras que la fuente dominante de varianza en el ML científico con conjuntos de datos pequeños es el propio muestreo de datos.

2. Solución del Lado de los Datos A: Bagging de K-Bootstrap

El enfoque clásico de Bagging (Breiman, 1996) entrena $K$ modelos sobre $K$ bootstraps independientes del conjunto de entrenamiento y promedia sus predicciones.

Rendimiento: Reduce el cambio entre un 40–54% en todos los conjuntos de datos en comparación con ERM.
Costo: Requiere $K \times$ la computación de una sola ejecución de entrenamiento ERM (por ejemplo, $5\times$ para $K=5$ ).
Precisión: Logra esta reducción sin costo para la precisión agregada.

3. Solución del Lado de los Datos B: Twin-Bootstrap

Los autores proponen Twin-Bootstrap, un método que entrena dos redes ( $\theta_A, \theta_B$ ) conjuntamente sobre bootstraps independientes ( $S_A, S_B$ ) del conjunto de entrenamiento.

Mecanismo: Las redes se entrenan para minimizar una pérdida combinada que consiste en entropía cruzada estándar sobre sus respectivos bootstraps más una pérdida de consistencia de divergencia KL simétrica ( $L_{cons}$ ) entre sus predicciones sobre la unión de los mini-lotes.
Superposición de Datos: Debido al muestreo bootstrap con reemplazo, los dos bootstraps comparten aproximadamente el 40% de los índices de entrenamiento en expectativa. La pérdida de consistencia actúa sobre esta superposición, mientras que las pérdidas de entropía cruzada se especializan en el resto no compartido.
Hiperparámetro ( $\lambda$ ): El peso de la pérdida de consistencia se selecciona en un conjunto de desarrollo (BACE) utilizando una regla que maximiza $\lambda$ manteniendo la precisión dentro de 0.02 de la línea base ERM. El valor seleccionado es $\lambda=300$ para la arquitectura MLP predeterminada.
Rendimiento: Con una computación 2 $\times$ ERM coincidente (entrenando dos redes), Twin-Bootstrap reduce el cambio un 45% mediano adicional más allá del bagging con $K=2$ . Iguala el rendimiento del bagging con $K=5$ (que requiere $5\times$ computación) en rango medio.

Resultados Clave

Magnitud del Cambio

Tasas de Cambio: En 9 pruebas de referencia de química (MoleculeNet, TDC ADME/Tox, ciencia de materiales), el cambio entre muestras invierte el 8.0–21.8% de las predicciones de prueba.
Estabilidad Agregada: La precisión agregada se mueve solo entre 1.3–4.2 puntos porcentuales entre reentrenamientos, ocultando la inestabilidad significativa por predicción.
Inestabilidad de la Clase Minoritaria: En conjuntos de datos desequilibrados, las predicciones de la clase minoritaria son 2–4 $\times$ más inestables que las de la clase mayoritaria, afectando las predicciones más críticas de "activas" o "tóxicas".

Rendimiento Comparativo

Lado de los Parámetros vs. Lado de los Datos: Los ensambles profundos, el dropout MC y SWA no logran reducir el cambio consistentemente. El bagging y Twin-Bootstrap son los únicos métodos que reducen el cambio de manera confiable.
Eficiencia: Twin-Bootstrap logra una reducción del cambio comparable al Bagging con computación $5\times$ ( $K=5$ ) mientras requiere solo 2 $\times$ computación ERM.
Acuerdo Distribucional: Twin-Bootstrap reduce la divergencia KL simétrica (desacuerdo distribucional) en un factor adicional de $\sim9\times$ más allá de Bagging- $K=5$ , indicando una estabilización superior de la distribución de probabilidad completa, no solo del argmax.

Impacto Aguas Abajo

Optimización Bayesiana (BO): En simulaciones de BO, Twin-Bootstrap aumenta significativamente la superposición de Jaccard de las 10 moléculas seleccionadas principales entre reentrenamientos (por ejemplo, de 0.03 a 0.68 en el conjunto de datos AMES). Reduce la desviación estándar de la trayectoria cruzada del valor adquirido final óptimo en un 34–100% en tareas de regresión.
Flujo de Trabajo de Triaje: Ordenar los ejemplos de prueba por su cambio estimado (usando un solo reentrenamiento adicional) permite a los practicantes identificar las predicciones más frágiles. Revisar el 30% superior de predicciones clasificadas por cambio captura el 58–100% de todos los cambios de clase, superando a la entropía predictiva.

Generalización

El método generaliza a través de arquitecturas y tareas:

Arquitecturas: Funciona en MLPs, Redes de Isomorfismo de Grafos (GIN) y backbones preentrenados (ChemBERTa, ResNet-50).
Ajuste de Hiperparámetros: Aunque el valor óptimo de $\lambda$ cambia con la arquitectura (por ejemplo, $\lambda=300$ para MLP, $\lambda=10$ para GIN/ChemBERTa), la regla de selección (maximizar $\lambda$ sujeto a una pequeña caída de precisión en el conjunto de desarrollo) se transfiere sin cambios.
Tareas: La clasificación de métodos (Twin-Bootstrap $\approx$ Bagging- $K=5$ > ERM) se mantiene tanto para tareas de clasificación como de regresión.

Significado y Afirmaciones

El artículo argumenta que el cambio de predicción entre muestras es una métrica faltante en la evaluación de referencia del ML científico. Sin informar esta métrica, los métodos de incertidumbre del lado de los parámetros (ensambles, dropout) y los métodos del lado de los datos (bagging, twin-bootstrap) parecen indistinguibles en las métricas estándar de precisión, a pesar de diferir fundamentalmente en su capacidad para estabilizar decisiones operativas.

Los autores afirman que:

El cambio es la métrica de estabilidad operativa: En laboratorios de bucle cerrado y cribado virtual, la reproducibilidad de las moléculas específicas seleccionadas es más crítica que la precisión agregada.
El remuestreo de datos es la palanca clave: La estabilidad está determinada más por cómo el procedimiento de entrenamiento remuestrea los datos que por la propia clase del modelo.
Twin-Bootstrap ofrece una receta práctica: Proporciona un método computacionalmente eficiente ( $2\times$ ERM) para diseñar estabilidad entre muestras en el momento del entrenamiento sin cambiar el pipeline de implementación, simplemente ajustando un solo hiperparámetro en un conjunto de desarrollo.

El artículo concluye que reducir el cambio tiene consecuencias operativas directas, reduciendo el trabajo experimental desperdiciado y haciendo reproducibles las decisiones de triaje computacional, aunque señala que un bajo cambio no garantiza la corrección (un modelo erróneo de manera estable sigue siendo erróneo).

Reducing cross-sample prediction churn in scientific machine learning