Beyond Reproducible Research: Building a Formal Representation of a Data Analysis

Este artículo propone e implementa una representación formal de los análisis de datos que, al externalizar su construcción lógica, permite evaluar la razonabilidad del análisis y la sensibilidad de sus supuestos sin necesidad de los datos originales ni de ejecutar el código.

Roger D. Peng

Publicado Thu, 12 Ma
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que la investigación científica es como un restaurante de alta cocina.

Hasta ahora, el estándar para que un chef (un científico) comparta su receta con el mundo era simplemente entregarle al cliente la lista de ingredientes (los datos) y la lista de pasos exactos que siguió (el código de programación). Esto se llama "investigación reproducible". Si el cliente sigue los pasos con los mismos ingredientes, debería obtener el mismo plato.

El problema:
A veces, el cliente sigue la receta, pero el plato sale mal. ¿Por qué? Porque la receta no explica por qué el chef tomó ciertas decisiones.

  • ¿Por qué usó sal en lugar de azúcar?
  • ¿Asumió que el tomate estaba maduro?
  • ¿Ignoró que el horno estaba defectuoso?

El código dice qué se hizo, pero no explica el razonamiento, las suposiciones o las expectativas del chef. Si el plato sale mal, el cliente tiene que volver a cocinarlo todo para descubrir el error, lo cual es lento y costoso.

La Propuesta: El "Plano Arquitectónico" de la Análisis

Roger Peng propone algo nuevo: en lugar de solo dar la receta, el chef debe entregar un plano arquitectónico lógico de su pensamiento.

Imagina que cada afirmación que hace el científico (ej. "El promedio de esta muestra es 4.6") no es solo un número, sino un edificio. Para que ese edificio sea sólido, debe tener cimientos y vigas de soporte.

En este nuevo sistema:

  1. La afirmación es el edificio: "El promedio es 4.6".
  2. Las premisas son los cimientos: "No hay datos faltantes", "No hay valores extremos raros", "La distribución es simétrica".

El código no solo calcula el número; verifica que los cimientos estén bien antes de permitir que el edificio se construya.

Analogías Clave para Entenderlo

1. El "Guardián de la Puerta" (Validación Automática)

En el código tradicional, si pides un promedio y hay un dato que dice "999" por error, el programa simplemente lo suma y te da un promedio falso. Es como si un guardia de seguridad dejara pasar a un intruso disfrazado.

En el sistema de Peng, cada afirmación tiene un guardián (una clase de validación).

  • Si el guardia ve un "999" o un dato faltante, bloquea la puerta.
  • El programa se detiene y grita: "¡Espera! No puedes afirmar que el promedio es 4.6 porque hay un dato raro aquí".
  • Ventaja: Sabes que la afirmación es cierta antes de ver el resultado final, solo por saber que el guardia no bloqueó la puerta.

2. El Árbol Genealógico de la Verdad

Imagina que quieres probar que "Juan es un buen padre".

  • Enfoque antiguo: Muestras una foto de Juan con su hijo. (Esto es el código: muestra lo que pasó).
  • Enfoque nuevo: Construyes un árbol genealógico de pruebas.
    • Para que Juan sea un buen padre, debe ser responsable.
    • Para ser responsable, debe pagar la escuela.
    • Para pagar la escuela, debe tener un trabajo estable.
    • Para tener un trabajo, debe tener un diploma.

El sistema de Peng crea este árbol. Si puedes verificar que tiene el diploma, el trabajo, paga la escuela y es responsable, entonces lógicamente debe ser un buen padre. No necesitas ver la foto del hijo para saber que la lógica es sólida.

3. El "Mapa de Riesgos" (Árboles de Fallo)

El artículo menciona algo fascinante: estos árboles de lógica son como los mapas de seguridad de los aviones.

  • En un avión, los ingenieros dibujan un árbol de lo que podría salir mal (fallo del motor, fallo del freno) para prevenirlo.
  • Peng dibuja un árbol de lo que debe estar bien para que la conclusión sea cierta.
  • Si el árbol muestra que "no hay valores extremos" y "la mediana es cercana al promedio", entonces la conclusión es segura. Si falta una rama, la conclusión es débil.

¿Por qué es esto importante para ti?

Imagina que lees un artículo médico que dice: "Este nuevo medicamento cura el dolor de cabeza".

  • Hoy (Reproducible): Te dan el código y los datos. Tienes que descargarlos, ejecutarlos en tu computadora y esperar horas para ver si el código funciona. Si funciona, confías en el resultado.
  • Mañana (Representación Formal): Te dan el "plano lógico". Puedes ver el árbol de argumentos:
    • Afirmación: El medicamento funciona.
    • Premisa 1: Los pacientes no tenían migrañas previas (verificado).
    • Premisa 2: No hubo efectos secundarios raros (verificado).
    • Premisa 3: La distribución de datos no estaba sesgada (verificado).

El beneficio mágico:
Puedes evaluar la calidad del argumento sin necesidad de tener los datos. Puedes ver el plano y decir: "Ah, veo que no verificaron si los pacientes tenían migrañas previas. ¡El edificio tiene un cimiento roto! No importa si el código funciona, la conclusión no es segura".

En Resumen

Roger Peng nos dice: "Dejemos de solo mostrar el resultado de la carrera (el código). Empecemos a mostrar el mapa del entrenamiento y la lógica del atleta (el razonamiento)."

Este sistema convierte la ciencia de datos en una estructura de lógica transparente, donde cada afirmación debe demostrar sus cimientos. No es solo una herramienta para repetir experimentos, es una herramienta para entender por qué un experimento es válido, incluso si nunca ejecutamos el código.