Critical Assessment of ML models for ADMET Prediction in TDC leaderboards

Este trabajo realiza una evaluación crítica de los modelos de aprendizaje automático en los tableros de clasificación de TDC para la predicción de ADMET, revelando que la mayoría de los modelos mejor clasificados carecen de reproducibilidad o presentan fugas de datos y sobreajuste, lo que subraya la necesidad urgente de implementar conjuntos de prueba ocultos, versionado estricto de datos y entornos de inferencia estandarizados.

Autores originales: Koleiev, I., Stratiichuk, R., Shevchuk, N., Melnychenko, M., Nyporko, O., Todoryshyn, D., Husak, V., Starosyla, S., Yesylevskyy, S. O., Nafiiev, A.

Publicado 2026-02-28
📖 5 min de lectura🧠 Análisis profundo
⚕️

Esta es una explicación generada por IA de un preprint que no ha sido revisado por pares. No es consejo médico. No tome decisiones de salud basándose en este contenido. Leer descargo de responsabilidad completo

Each language version is independently generated for its own context, not a direct translation.

Imagina que el desarrollo de nuevos medicamentos es como intentar construir el coche perfecto para una carrera. Antes de gastar millones en pruebas reales en la pista (en humanos), los ingenieros quieren usar simuladores de computadora para predecir qué coches funcionarán bien y cuáles se romperán.

En el mundo de la medicina, estos "simuladores" son modelos de Inteligencia Artificial (IA) que predicen cómo se comportará una droga en el cuerpo humano (su absorción, toxicidad, etc.). Para ver qué simulador es el mejor, existe una pista de carreras pública llamada TDC (Therapeutics Data Commons), donde los investigadores compiten y suben sus modelos a un cuadro de honor (leaderboard) para ver quién tiene el mejor tiempo.

Este artículo es como una investigación periodística que decide ir a la pista, revisar los coches de los ganadores y preguntar: "¿Realmente son tan rápidos como dicen, o están haciendo trampa?"

Aquí tienes los puntos clave explicados con analogías sencillas:

1. El problema de la "Pista Abierta"

El problema principal es que la pista de carreras (los datos de prueba) es pública y visible para todos.

  • La analogía: Imagina que en una carrera de coches, el recorrido de la prueba final está publicado en internet meses antes. Los ingenieros no solo diseñan un buen coche, sino que ajustan las ruedas y el motor específicamente para las curvas exactas de ese recorrido.
  • La realidad: Los investigadores han estado "entrenando" sus modelos de IA no solo para aprender química, sino para memorizar los datos de prueba. Cuando el modelo ve un dato que ya conoce, da una respuesta perfecta, pero si le das un coche nuevo (una molécula nueva), el modelo podría fallar estrepitosamente.

2. La inspección de los "Ganadores"

Los autores del estudio tomaron los 3 mejores modelos de cada categoría del cuadro de honor y los pusieron a prueba en su propio laboratorio. Fue como pedirle a los ganadores que trajeran sus coches para una revisión técnica.

¿Qué encontraron?

  • La mayoría no pudo arrancar: Muchos de los modelos que decían ser los mejores tenían código roto, instrucciones de instalación confusas o dependían de versiones de software que ya no existían. Era como si un ganador de Fórmula 1 dijera: "Gané la carrera, pero no puedo darte las llaves del coche ni decirte cómo encenderlo".
  • Trampas en los datos (Fugas de información): Descubrieron que algunos modelos, como MiniMol, habían "visto" los datos de prueba antes de la carrera.
    • La analogía: Es como si un estudiante hiciera un examen final, pero el profesor le dio el libro de respuestas con las preguntas exactas del examen antes de empezar. El modelo aprendió las respuestas específicas en lugar de aprender la materia.
  • Ajuste de trampas (Overfitting): Otros modelos, como GradientBoost y XGBoost, tenían un error en su configuración: usaban los datos de prueba para "entrenar" sus ajustes finales.
    • La analogía: Es como si un entrenador de un equipo de fútbol usara el partido final para practicar los tiros libres. ¡Obviamente ganarán ese partido, pero no significa que sean el mejor equipo del mundo!

3. Los únicos "Ganadores Honestos"

De todos los modelos revisados, solo tres pasaron todas las pruebas sin problemas:

  1. CaliciBoost
  2. MapLight
  3. MapLight + GNN

Estos modelos funcionaron bien, su código era reproducible y no parecieron hacer trampa. Son los únicos que realmente merecen estar en el podio, al menos por ahora.

4. El experimento de "Hacer Trampa a Propósito"

Para demostrar cuán fácil es engañar al sistema, los autores crearon sus propios modelos y hicieron trampa deliberadamente.

  • La analogía: Dijeron: "Vamos a tomar un coche normal y ajustarlo específicamente para las curvas de esta pista pública".
  • El resultado: ¡Funcionó! Sus modelos "tramposos" saltaron de posiciones medias a los puestos 1, 2 o 3 en muchas categorías.
  • La lección: Esto demuestra que el cuadro de honor actual es muy frágil. Si alguien decide "hacer trampa" (ajustar su modelo a los datos públicos), puede subir al primer lugar fácilmente, incluso si su modelo no es realmente el mejor para el mundo real.

5. ¿Qué proponen los autores?

El estudio concluye que el sistema actual de rankings es útil, pero peligroso si se toma demasiado en serio. Para arreglarlo, proponen tres cambios grandes:

  1. Pista Oculta: Los datos de prueba deben ser secretos. Nadie debe poder verlos hasta el momento de la evaluación final. Así, nadie puede ajustar el coche a las curvas específicas.
  2. Versiones con Candado: Los conjuntos de datos deben tener un "candado" (versión fija). Si cambian una sola molécula, debe ser una nueva versión oficial. Así, todos compiten contra el mismo escenario exacto.
  3. Entregar el Coche, no la Foto: En lugar de que los investigadores solo envíen sus resultados (números), deben enviar el código completo y el entorno de ejecución (el coche listo para correr) en un formato estándar. Así, el sistema puede verificar automáticamente si el coche funciona de verdad.

En resumen

Este artículo nos dice: "No confíes ciegamente en el cuadro de honor actual de la IA para medicamentos". Muchos de los "genios" que están en el primer lugar probablemente han memorizado el examen en lugar de aprender la lección. Necesitamos un sistema más estricto, con datos ocultos y reglas más claras, para asegurarnos de que los modelos que prometen salvar vidas realmente funcionen cuando los usemos en pacientes reales.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →