In-Run Data Shapley for Adam Optimizer

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o chef de um restaurante de luxo (o seu modelo de IA) e está preparando um prato incrível (o treinamento do modelo). Você tem uma despensa gigante cheia de ingredientes (os dados de treinamento). Alguns ingredientes são frescos e essenciais, outros estão estragados e podem estragar o prato, e alguns são apenas "encheção de linguiça" que não ajudam em nada.

O grande desafio é: como saber exatamente qual ingrediente contribuiu para o sucesso do prato?

Aqui entra a ideia de Shapley, que é como uma "fórmula matemática justa" para dividir a pontuação do prato entre todos os ingredientes. Mas calcular isso tradicionalmente é um pesadelo: você teria que cozinhar o prato milhares de vezes, tirando um ingrediente de cada vez, para ver a diferença. Isso levaria anos!

Recentemente, os cientistas criaram um método chamado "In-Run" (durante a corrida), que tenta adivinhar a contribuição dos ingredientes enquanto o prato está sendo cozido, sem precisar recomeçar tudo. O problema? Esse método foi feito pensando em um tipo de cozimento muito simples e linear (chamado SGD).

Mas, na vida real, os chefs modernos usam uma técnica muito mais sofisticada e adaptável chamada Adam. O Adam é como um cozinheiro experiente que ajusta a temperatura e o tempo baseado no que aconteceu nos minutos anteriores, não apenas no que está acontecendo agora.

O que essa descoberta nova diz?

Os autores do paper descobriram uma verdade chocante: o valor de um ingrediente depende de como você cozinha.

O Problema (A Confusão): Se você tentar usar a lógica do "cozinheiro simples" (SGD) para avaliar os ingredientes de um prato feito pelo "cozinheiro esperto" (Adam), você vai errar feio. É como tentar medir a velocidade de um carro de Fórmula 1 usando a régua de um ciclista. A correlação é quase zero (cerca de 11%). O método antigo acha que ingredientes ruins são bons e vice-versa.
A Solução (O Novo Método): Eles criaram um novo sistema, o "Shapley de Dados Adam-Aware". É como se eles inventassem uma nova régua feita sob medida para o cozinheiro esperto. Eles criaram uma fórmula matemática que entende como o Adam "pensa" e ajusta o cálculo para levar em conta a história e as adaptações do cozinheiro.
O Truque Mágico (Linearização Fantasma): Calcular isso para milhões de ingredientes normalmente exigiria uma memória de computador gigantesca (como tentar guardar uma foto de cada grão de arroz da despensa). Eles usaram um truque chamado "Aproximação Fantasma Linearizada".
- A analogia: Em vez de tirar uma foto de cada grão de arroz individualmente, eles olham para o fluxo de ar que passa por todos eles ao mesmo tempo e deduzem o movimento de cada um. Isso permite que eles façam o cálculo super rápido, quase sem gastar memória extra, mantendo a velocidade do treinamento quase igual à normal.

Por que isso é importante na prática?

Limpeza da Despensa: Com esse novo método, você consegue identificar com precisão quais ingredientes (dados) estão estragados ou inúteis e jogá-los fora. O papel mostra que, ao remover os "piores" dados usando essa nova régua, o prato final fica mais saboroso (o modelo fica mais preciso). Se você usasse a régua antiga (SGD), poderia acabar jogando fora ingredientes bons e mantendo os ruins.
Rastreamento de Origem: Se o seu prato ficou estranho, você consegue descobrir exatamente qual ingrediente causou o problema, mesmo que ele tenha sido modificado (paráfrase) ou esteja em um contexto diferente. O novo método é muito melhor em encontrar a "verdadeira origem" do sabor do que os métodos antigos.

Resumo da Ópera:

Este trabalho diz: "Pare de usar as mesmas ferramentas para medir coisas diferentes." O valor de um dado não é fixo; ele muda dependendo de como a IA aprende. Criaram uma nova ferramenta que entende a complexidade dos treinadores modernos (Adam), é super rápida, não gasta memória extra e, o mais importante, funciona de verdade, permitindo que as IAs aprendam melhor, mais rápido e com menos "lixo" nos dados.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: In-Run Data Shapley para Otimizador Adam

1. Problema e Motivação

A atribuição de dados (data attribution) é fundamental para identificar a influência de amostras individuais no desempenho de modelos de aprendizado de máquina, auxiliando na mitigação de viés, na detecção de envenenamento de dados e na otimização de custos computacionais. O Valor de Shapley é considerado o padrão-ouro teórico para essa tarefa devido às suas propriedades de justiça e eficiência.

No entanto, o cálculo exato do Valor de Shapley é computacionalmente proibitivo (requer retreinamento exponencial). Métodos recentes, como o In-Run Data Shapley (Wang et al., 2025), contornam esse custo estimando contribuições dinamicamente durante um único processo de treinamento.

A Lacuna Crítica: O In-Run Data Shapley existente foi derivado assumindo a estrutura linear do Gradiente Descendente Estocástico (SGD).
O Desafio: Na prática, a maioria dos modelos modernos de Deep Learning é treinada com otimizadores adaptativos, principalmente o Adam, que utiliza momentos históricos e escalas de variância adaptativas.
A Hipótese de Falha: O artigo demonstra que a atribuição baseada em SGD falha drasticamente ao ser aplicada a modelos treinados com Adam, pois ignora a dependência do estado e a não-linearidade introduzida pelo otimizador.

2. Metodologia Proposta

Os autores propõem o Adam-Aware In-Run Data Shapley, uma extensão do framework In-Run que é matematicamente consistente com a dinâmica do otimizador Adam.

A. Dependência do Otimizador e Definição de Utilidade

Os autores provam que o valor de um dado não é uma propriedade intrínseca da amostra, mas está fundamentalmente acoplado à trajetória de otimização.
Eles demonstram que proxies baseados em SGD têm uma correlação extremamente baixa (Pearson $R \approx 0.11$ ) com as contribuições marginais reais sob Adam.
Para resolver isso, eles redefinem a função de utilidade local por iteração sob uma hipótese de estado fixo, permitindo uma expansão de Taylor de primeira ordem que restaura a propriedade de aditividade necessária para o cálculo de Shapley.

B. Derivação do Estimador de Forma Fechada

Diferente do SGD, onde a atualização é uma combinação linear direta dos gradientes, a atualização do Adam depende dos momentos de primeira e segunda ordem ( $m_t$ e $v_t$ ).
Os autores derivam uma fórmula de forma fechada para o Valor de Shapley no Adam, onde a contribuição de um ponto de dados acumula produtos internos entre a direção de atualização do Adam e os gradientes dos dados de validação, em vez de apenas produtos internos de gradiente-gradiente.

C. Aproximação "Linearized Ghost" (Fantasma Linearizado)

Desafio de Escalabilidade: Calcular produtos internos para cada amostra individualmente em Adam exigiria materializar gradientes por amostra, resultando em um custo de memória proibitivo ( $O(B \times P)$ ).
Solução: Introduzem a Linearized Ghost Approximation.
- A técnica lineariza o termo de escala dependente da variância do Adam (o denominador $\sqrt{v_t + \epsilon}$ ) através de uma expansão de Taylor de primeira ordem em torno da estimativa de variância do passo anterior.
- Isso permite expressar a atualização do Adam como uma combinação linear do gradiente atual e dos momentos históricos.
- Consequentemente, é possível calcular todos os produtos internos de gradiente em uma única passagem de retropropagação (backpropagation), sem materializar gradientes individuais, mantendo o uso de memória idêntico ao treinamento padrão.

3. Contribuições Principais

Prova de Dependência do Otimizador: Demonstração empírica e teórica de que valores de Shapley derivados de SGD são inválidos para modelos treinados com Adam, com correlações próximas de zero.
Novo Estimador para Adam: O primeiro estimador de forma fechada para In-Run Data Shapley adaptado especificamente para a dinâmica não-linear e com estado do Adam.
Técnica de Computação Escalável: A introdução da "Linearized Ghost Approximation", que elimina o overhead de memória e computacional, permitindo a atribuição de dados em tempo real durante o treinamento de modelos grandes (Foundation Models).
Validação Prática: Demonstração de que a atribuição sensível ao Adam supera significativamente as abordagens baseadas em SGD em tarefas downstream.

4. Resultados Experimentais

A. Fidelidade (Fidelity)

O método proposto atinge uma fidelidade quase perfeita em relação às contribuições marginais reais (Ground Truth) sob Adam, com correlação de Pearson $R > 0.99$ .
Em contraste, o proxy baseado em SGD apresenta baixa fidelidade ( $R \approx 0.74$ em alguns testes, caindo para $R \approx 0.11$ em comparações diretas de trajetórias).

B. Identificação de Fonte Semântica

Em tarefas de identificação de fontes semânticas (usando DistilGPT-2), o método Adam-aware consegue recuperar a amostra de treinamento original mesmo sob paráfrases significativas e tópicos similares.
O método baseado em SGD falha nessas condições, indicando que ele depende excessivamente de sobreposição léxica superficial ou memorização, enquanto o método Adam captura a contribuição semântica mediada pelo otimizador.

C. Poda de Dados (Data Pruning) no SST-2

Ao podar os dados com as menores pontuações de Shapley (removendo dados menos úteis) em DistilBERT:
- Adam-aware: Mantém alta acurácia (ex: 0.8681 com 30% de poda), superando consistentemente a poda aleatória.
- SGD-based: A acurácia colapsa drasticamente (ex: 0.7117 com 30% de poda), mostrando que as decisões de poda baseadas em SGD são prejudiciais em pipelines modernos.

D. Eficiência Computacional

Throughput: O método "Adam-Ghost" mantém 95% do throughput do treinamento padrão (87.85 amostras/segundo vs. 92.41 do baseline).
Memória: O uso de pico de memória é idêntico ao treinamento padrão (~5.1 GB), enquanto uma implementação ingênua ("Adam-Direct") exigiria ~12.9 GB (aumento de 150%), tornando-a inviável para modelos grandes.

5. Significado e Impacto

Este trabalho é fundamental para a comunidade de IA por:

Corrigir uma Falha Teórica: Estabelece que a atribuição de dados não é agnóstica ao otimizador e que aplicar métodos de SGD a otimizadores adaptativos gera resultados enganosos.
Viabilizar Atribuição em Escala: Torna viável o cálculo de valores de dados em tempo real durante o treinamento de modelos de fundação (Large Language Models) que utilizam Adam, sem penalidades de memória ou velocidade.
Melhoria de Pipeline: Permite estratégias de curadoria de dados (data curation) e poda mais eficazes e robustas, melhorando a generalização e reduzindo custos de treinamento em cenários modernos de Deep Learning.

Em suma, o artigo preenche a lacuna crítica entre a teoria de atribuição de dados e a prática de treinamento moderno, fornecendo uma ferramenta teoricamente sólida e computacionalmente eficiente para entender o valor dos dados em pipelines baseados em Adam.

In-Run Data Shapley for Adam Optimizer

Resumo Técnico: In-Run Data Shapley para Otimizador Adam

1. Problema e Motivação

2. Metodologia Proposta

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions