In-Run Data Shapley for Adam Optimizer

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que estás entrenando a un equipo de fútbol (tu modelo de Inteligencia Artificial) para ganar el campeonato. Tienes un estadio lleno de miles de jugadores (tus datos de entrenamiento). El problema es: ¿Qué jugadores son realmente los héroes que hicieron ganar al equipo y cuáles son los que estorban o incluso hacen perder?

Aquí es donde entra la idea de "Shapley Data" (o el valor de Shapley). Es como un sistema de justicia matemática que intenta repartir los puntos del campeonato de forma justa entre todos los jugadores, basándose en cuánto ayudó cada uno.

El problema es que calcular esto es como intentar simular millones de partidos diferentes para ver qué pasaría si quitas a un jugador: ¡tardaría años!

Hasta hace poco, los científicos tenían una "trampa" rápida: asumían que el entrenador (el algoritmo de aprendizaje) era muy simple y predecible, como un entrenador que solo da instrucciones directas y lineales (llamado SGD). Con este entrenador simple, la "trampa" funcionaba bien.

Pero aquí está el giro: En el mundo real, los entrenadores modernos (como Adam, el más usado hoy en día) son mucho más complejos. Son como entrenadores que miran el historial de los jugadores, ajustan su ritmo según la fatiga y cambian de estrategia dinámicamente.

El problema: La "Trampa" ya no funciona

Los autores de este paper descubrieron algo fascinante: Si usas la lógica del entrenador simple (SGD) para evaluar a un equipo entrenado por el entrenador complejo (Adam), te equivocas totalmente.

La analogía: Es como si un analista deportivo intentara juzgar a un jugador de fútbol moderno usando las reglas del fútbol de hace 100 años. El analista diría: "¡Este jugador es malo porque no corrió en línea recta!", cuando en realidad, ese jugador estaba haciendo una jugada táctica brillante que solo el entrenador moderno entendía.
El resultado: La correlación entre lo que pensaban los métodos viejos y la realidad es casi nula (casi 0.11). Estaban perdiendo el tiempo y descartando a los mejores jugadores.

La solución: "Shapley Data con Conciencia de Adam"

Los autores crearon un nuevo método llamado "In-Run Data Shapley para Adam".

Entender al entrenador: En lugar de ignorar la complejidad de Adam, su fórmula matemática nueva "escucha" cómo Adam piensa. Entiende que Adam guarda memoria de los pasos anteriores y ajusta la velocidad.
La magia del "Fantasma Linealizado": Calcular esto normalmente sería tan pesado que tu computadora explotaría (necesitarías guardar la memoria de cada jugador por separado).
- La analogía: Imagina que necesitas saber cómo interactúan 1000 personas en una habitación. El método viejo te pedía que grabaras a cada persona por separado (imposible). El nuevo método es como poner un espejo mágico en la habitación: puedes ver todas las interacciones de un solo golpe, sin tener que grabar a nadie individualmente.
- Esto les permite calcular los valores de los datos mientras el equipo entrena, sin ralentizar el proceso.

¿Por qué es importante? (Los resultados)

Con este nuevo método, lograron tres cosas increíbles:

Precisión casi perfecta: Su método acierta casi el 100% de las veces en identificar quién ayudó realmente al modelo, mientras que los métodos viejos fallaban estrepitosamente.
Velocidad: No ralentizaron el entrenamiento. Siguen siendo tan rápidos como entrenar normalmente (el 95% de la velocidad).
Limpieza real: Cuando usaron su método para "poda de datos" (borrar los datos malos para que el modelo aprenda mejor), el modelo mejoró mucho más que cuando usaron los métodos viejos.
- Ejemplo: En una tarea de entender sentimientos (como si un tweet es positivo o negativo), su método logró una precisión del 88%, mientras que el método viejo con el mismo entrenador moderno se desplomó al 71%.

En resumen

Este paper nos dice: "No puedes usar las mismas reglas de ayer para los entrenadores de hoy".

Si quieres saber qué datos son valiosos en la Inteligencia Artificial moderna, necesitas una herramienta que entienda cómo funciona el entrenador moderno (Adam). Los autores han creado esa herramienta: es rápida, justa y funciona de verdad, permitiéndonos limpiar nuestros datos y construir mejores modelos sin gastar años de tiempo de cálculo.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: In-Run Data Shapley para el Optimizador Adam

1. Planteamiento del Problema

La atribución de datos fiable es crucial para mitigar sesgos y reducir el desperdicio computacional en el aprendizaje automático moderno. El Valor de Shapley se considera el estándar teórico para asignar contribuciones equitativas a los datos. Sin embargo, su cálculo exacto requiere reentrenar el modelo innumerables veces, lo cual es prohibitivo.

Para solucionar esto, métodos recientes como "In-Run Data Shapley" (Wang et al., 2025) estiman las contribuciones dinámicamente durante un solo proceso de entrenamiento, evitando el reentrenamiento. No obstante, estos métodos tienen una limitación crítica:

Dependencia del Optimizador: Los métodos existentes asumen una estructura lineal propia del Descenso de Gradiente Estocástico (SGD).
La Brecha: En la práctica, los modelos modernos se entrenan casi exclusivamente con optimizadores adaptativos como Adam, que utilizan momentos históricos y escalado de varianza adaptativa.
El Problema Central: Los autores demuestran que las contribuciones de los datos no son propiedades intrínsecas del conjunto de datos, sino que están acopladas a la trayectoria de optimización. Utilizar proxies basados en SGD para modelos entrenados con Adam genera resultados erróneos (correlación de Pearson $R \approx 0.11$ ), haciendo que la atribución sea ineficaz para pipelines modernos.

2. Metodología Propuesta

Los autores proponen Adam-Aware In-Run Data Shapley, un marco que adapta la atribución de datos a la dinámica no lineal y con estado de Adam.

Derivación de un Estimador de Forma Cerrada:
- Se redefine la utilidad por iteración bajo una asunción de estado fijo.
- Se aplica una expansión de Taylor de primer orden a la utilidad local bajo la dinámica de Adam.
- Se demuestra que el valor de Shapley acumula productos punto entre la dirección de actualización de Adam y los gradientes de los datos de validación, en lugar de simples productos punto entre gradientes (como en SGD).
Aproximación "Ghost" Linealizada (Linearized Ghost Approximation):
- El principal desafío técnico es que el término de escalado de varianza de Adam ( $\frac{1}{\sqrt{v_t} + \epsilon}$ ) rompe la linealidad necesaria para calcular productos punto de gradientes de manera eficiente (Ghost Dot-Product).
- Solución: Los autores linealizan el término de varianza dependiente mediante una expansión de Taylor de primer orden alrededor de la estimación de varianza del paso anterior.
- Esto permite expresar la actualización de Adam como una combinación lineal del gradiente actual y los momentos históricos.
- Resultado: Se puede calcular la atribución mediante un único paso de retropropagación (backpropagation) sin necesidad de materializar gradientes por muestra, reduciendo la sobrecarga de memoria a niveles insignificantes.

3. Contribuciones Clave

Atribución Consciente del Optimizador: Se demuestra empíricamente que los valores de Shapley dependen del algoritmo de optimización. Los proxies basados en SGD tienen una correlación extremadamente baja ( $R \approx 0.11$ ) con las contribuciones marginales reales bajo Adam.
Primer Estimador de Forma Cerrada para Adam: Se deriva la primera fórmula analítica para In-Run Data Shapley adaptada específicamente a Adam, que tiene en cuenta explícitamente el momento y el escalado de varianza.
Escalabilidad mediante "Linearized Ghost": Se introduce una técnica que permite calcular atribuciones para optimizadores adaptativos con la misma eficiencia de memoria y tiempo que el entrenamiento estándar, evitando el costo exponencial de calcular gradientes individuales.
Alta Fidelidad y Eficiencia: El método logra una fidelidad casi perfecta con las contribuciones marginales reales ( $R > 0.99$ ) y mantiene el 95% del rendimiento (throughput) del entrenamiento estándar.

4. Resultados Experimentales

Los experimentos se realizaron en modelos como DistilGPT-2 y DistilBERT, utilizando datasets como WikiText-2 y SST-2.

Identificación de Fuentes Semánticas:
- En tareas de identificar qué datos de entrenamiento influyeron en una consulta de validación (incluso con paráfrasis significativas o temas similares), el método basado en Adam superó consistentemente a los métodos basados en SGD y a funciones de influencia tradicionales.
- El método Adam asignó rangos mucho más bajos (mejores) a la fuente real, demostrando que captura la contribución semántica mediada por el optimizador, no solo la superposición léxica.
Poda de Datos (Data Pruning) en SST-2:
- Al eliminar el 10-30% de los datos con menor puntuación (basado en Shapley), el modelo reentrenado con Adam mantuvo o mejoró su precisión (hasta 0.8876).
- En contraste, la poda guiada por puntuaciones de SGD en un entorno Adam (o viceversa) resultó en una degradación severa del rendimiento, confirmando que las decisiones de poda no son transferibles entre optimizadores.
Eficiencia Computacional:
- Throughput: El método propuesto alcanzó 87.85 muestras/segundo, comparado con 92.41 del entrenamiento estándar (AdamW) y solo 25.58 para una implementación ingenua (Adam-Direct).
- Memoria: El uso de memoria pico fue idéntico al entrenamiento estándar (~5179 MB), mientras que la implementación ingenua requirió un 150% más de memoria, lo que la haría inviable para modelos grandes.
Fidelidad:
- Correlación con la utilidad marginal real bajo Adam: $R = 0.9992$ .
- Correlación del proxy SGD bajo Adam: $R = 0.8434$ (y mucho menor en comparaciones cruzadas).

5. Significado e Impacto

Este trabajo es fundamental para la era de los modelos de lenguaje grandes (LLMs) y modelos fundacionales, ya que:

Corrige un Error Teórico: Establece que la atribución de datos no es agnóstica al optimizador, invalidando la práctica común de usar métodos basados en SGD para sistemas modernos.
Habilita la Curación de Datos en Tiempo Real: Permite identificar y eliminar datos dañinos o redundantes durante el entrenamiento de modelos masivos sin detener el proceso ni consumir recursos excesivos.
Robustez y Seguridad: Mejora la capacidad de detectar fuentes de datos maliciosas (envenenamiento de datos) o sesgadas en pipelines que utilizan Adam, algo crítico para la seguridad y la equidad en IA.

En conclusión, los autores presentan un marco riguroso y computacionalmente viable que cierra la brecha entre la teoría de atribución de datos y la práctica del entrenamiento moderno con optimizadores adaptativos.

In-Run Data Shapley for Adam Optimizer

El problema: La "Trampa" ya no funciona

La solución: "Shapley Data con Conciencia de Adam"

¿Por qué es importante? (Los resultados)

En resumen

Resumen Técnico: In-Run Data Shapley para el Optimizador Adam

1. Planteamiento del Problema

2. Metodología Propuesta

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions