In-Run Data Shapley for Adam Optimizer

Each language version is independently generated for its own context, not a direct translation.

Titel: Der faire Kellner für KI-Trainingsdaten – Warum der „Adam"-Optimierer eine neue Zählweise braucht

Stellen Sie sich vor, Sie sind der Chef eines riesigen Restaurants (das ist Ihre Künstliche Intelligenz). Um ein perfektes Menü zu kochen, brauchen Sie viele verschiedene Zutaten (das sind Ihre Trainingsdaten). Aber nicht alle Zutaten sind gleich gut. Manche sind frisch und lecker, andere sind verdorben oder einfach nur unnötig.

Das Problem: Wenn Sie das Gericht am Ende probieren, wissen Sie nicht genau, welche einzelne Zutat den größten Unterschied gemacht hat. War es das Salz? Oder war es eigentlich das verdorbene Gemüse, das den ganzen Geschmack ruiniert hat?

In der Welt der KI nennen wir das Daten-Zuordnung (Data Attribution). Wir wollen wissen: „Welche Daten haben dem Modell wirklich geholfen und welche haben geschadet?"

Das alte Problem: Der lineare Koch (SGD)

Bisher gab es eine beliebte Methode, um die Verdienste der Zutaten zu berechnen, die auf einem einfachen Koch namens SGD (Stochastic Gradient Descent) basierte.

Die Analogie: Stellen Sie sich SGD wie einen Koch vor, der alles sehr linear macht. Wenn er eine Prise Salz hinzufügt, wird das Essen genau um einen bestimmten Betrag besser. Wenn er eine Tomate hinzufügt, wird es genau um einen anderen Betrag besser.
Das Werkzeug: Frühere Forscher haben eine Methode namens „In-Run Data Shapley" entwickelt. Das ist wie ein cleverer Kellner, der während des Kochens (dem Training) sofort notiert, wie viel jede Zutat zum Erfolg beigetragen hat, ohne das ganze Gericht neu kochen zu müssen. Das war super schnell und effizient.

ABER: Die moderne Küche hat sich geändert. Die meisten modernen Restaurants (moderne KI-Modelle) nutzen keinen einfachen Koch mehr, sondern einen hochmodernen, adaptiven Küchenchef namens Adam.

Das neue Problem: Der adaptive Küchenchef (Adam)

Der Chef Adam ist viel komplexer. Er hat ein Gedächtnis.

Wie Adam funktioniert: Wenn Adam eine Zutat hinzufügt, schaut er nicht nur auf die Zutat selbst, sondern auch auf das, was er in der letzten Minute getan hat. Wenn er gerade viel Salz benutzt hat, nimmt er heute vielleicht weniger. Er passt die Menge dynamisch an, basierend auf der „Geschichte" der Zutaten.
Das Missverständnis: Wenn Sie versuchen, den alten Kellner (der nur für den linearen Koch SGD gemacht wurde) in der Küche von Chef Adam einzusetzen, passiert ein Desaster. Der Kellner denkt: „Oh, diese Zutat war gut!", aber Chef Adam hat sie wegen seiner komplexen Regeln eigentlich heruntergewichtet.
Das Ergebnis: Der alte Kellner liefert völlig falsche Bewertungen. Die Korrelation zwischen seiner Meinung und der Realität ist so schlecht, als würde er versuchen, ein Wettervorhersage-Modell für den Mars zu nutzen, um das Wetter auf der Erde vorherzusagen.

Die Lösung: Ein neuer Kellner für Chef Adam

Die Autoren dieses Papers haben gesagt: „Nein, nein! Wir brauchen einen Kellner, der versteht, wie Chef Adam tickt."

Sie haben Adam-Aware In-Run Data Shapley erfunden. Hier ist, wie sie es gemacht haben, mit einfachen Bildern:

Die neue Formel (Closed-Form Approximation):
Sie haben eine neue mathematische Formel entwickelt, die genau beschreibt, wie Chef Adam eine Zutat bewertet. Sie berücksichtigen dabei das „Gedächtnis" des Chefs (die historischen Momente). Das ist wie ein Kellner, der nicht nur die aktuelle Zutat sieht, sondern auch weiß, was der Chef in den letzten 10 Minuten getan hat, um fair zu bewerten.
Das „Geister"-Problem (Ghost Dot-Product):
Normalerweise müsste man, um jede Zutat genau zu bewerten, das Gericht für jede einzelne Zutat separat neu kochen und probieren. Das wäre extrem langsam und teuer (wie wenn Sie für jeden Gast ein neues Menü kochen müssten).
- Die Lösung: Sie haben eine Technik namens „Linearized Ghost Approximation" erfunden.
- Die Metapher: Stellen Sie sich vor, Sie könnten die Wirkung einer Zutat berechnen, ohne sie tatsächlich in den Topf zu werfen. Sie nutzen einen „Geist", der die Wirkung simuliert. Anstatt 100 separate Töpfe zu benutzen, nutzen Sie einen einzigen Topf und berechnen die Beiträge aller Zutaten gleichzeitig, indem Sie eine clever vereinfachte Version der komplexen Adam-Regeln verwenden.
- Der Vorteil: Es ist fast genauso schnell wie normales Kochen (95% der Geschwindigkeit), aber Sie bekommen trotzdem die genauen Werte für jede Zutat.

Was bringt das in der Praxis?

Die Forscher haben ihre neue Methode getestet und sie funktioniert fantastisch:

Bessere Identifikation: Wenn Sie ein KI-Modell trainieren, um Texte zu verstehen, kann diese neue Methode viel besser erkennen, welche Sätze im Trainingsmaterial wirklich wichtig waren und welche nur „Rauschen" waren. Der alte Kellner (SGD) verwechselte oft ähnliche Wörter mit ähnlichen Bedeutungen. Der neue Kellner (Adam) versteht den Kontext besser.
Sauberes Aufräumen (Data Pruning): Sie können nun gezielt die „schlechten" oder „unnötigen" Daten entfernen, die das Modell verlangsamen oder verwirren. Wenn Sie das mit der alten Methode machten, haben Sie oft wichtige Daten gelöscht und das Modell wurde schlechter. Mit der neuen Methode wird das Modell nach dem Aufräumen sogar besser!
Geschwindigkeit: Es kostet kaum zusätzliche Zeit oder Speicherplatz. Es ist wie ein Turbo-Modus für die Datenanalyse.

Fazit

Dieses Papier sagt uns im Grunde: Daten haben keinen festen Wert. Der Wert einer Daten-Zutat hängt davon ab, wie der Koch (der Optimierer) sie verarbeitet.

Wenn Sie einen modernen, adaptiven Koch (Adam) haben, müssen Sie auch einen modernen Kellner haben, der dessen komplexe Regeln versteht. Die alten Methoden funktionieren hier nicht mehr. Die neue Methode von Ding und Kollegen ist wie ein hochpräzises Werkzeug, das es uns erlaubt, KI-Modelle effizienter zu trainieren, Verzerrungen zu entfernen und genau zu verstehen, was in unseren Daten wirklich passiert.

Each language version is independently generated for its own context, not a direct translation.

Titel: In-Run Data Shapley für den Adam-Optimierer

Veröffentlicht: 3rd DATA-FM Workshop @ ICLR 2026, Brasilien
Autoren: Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu

1. Problemstellung

Die zuverlässige Zuordnung von Datenbeiträgen (Data Attribution) ist entscheidend, um Verzerrungen in maschinellen Lernmodellen zu minimieren und Rechenressourcen effizient zu nutzen. Der Shapley-Wert gilt hier als theoretischer Goldstandard, da er den Beitrag einzelner Datenpunkte fair basierend auf ihren marginalen Beiträgen zur Gesamtperformance verteilt.

Das Hauptproblem liegt in der Skalierbarkeit: Die exakte Berechnung erfordert das exponentielle Neutrainieren von Modellen mit verschiedenen Daten-Teilmengen, was für Deep Learning unpraktisch ist.

Bisherige Lösung: Kürzlich eingeführte „In-Run"-Methoden (z. B. von Wang et al., 2025) umgehen das Neutrainieren, indem sie Beiträge dynamisch während eines einzigen Trainingslaufs schätzen.
Die Lücke: Diese bestehenden In-Run-Methoden basieren stark auf der linearen Struktur des Stochastic Gradient Descent (SGD). Sie versagen jedoch bei modernen, adaptiven Optimierern wie Adam, da diese historische Momente und adaptive Varianzterme nutzen.
Kernfrage: Sind Daten-Shapley-Werte unabhängig vom Optimierer? Die Autoren zeigen, dass SGD-basierte Proxys unter Adam-Konditionen völlig versagen (Pearson-Korrelation $R \approx 0,11$ ), was zu irreführenden Ergebnissen führt.

2. Methodik

Die Autoren schlagen Adam-Aware In-Run Data Shapley vor, eine Methode, die die nichtlinearen Dynamiken von Adam explizit berücksichtigt.

A. Theoretische Herleitung (Closed-Form Approximation)

Problem: Adam-Updates sind zustandsbehaftet (stateful) und nichtlinear, da sie von historischen ersten ( $m_t$ ) und zweiten Momenten ( $v_t$ ) der Gradienten abhängen. Dies bricht die Linearität, die für die effiziente Berechnung von Shapley-Werten in In-Run-Methoden notwendig ist.
Lösung: Die Autoren definieren die Nutzenfunktion (Utility) unter der Annahme eines fixierten Zustands neu. Durch eine Taylor-Entwicklung erster Ordnung um den Varianzterm wird eine geschlossene Formel hergeleitet.
Ergebnis: Der Shapley-Wert wird als Summe von Dot-Produkten zwischen dem Validierungsgradienten und dem adaptiven Update-Vektor von Adam dargestellt. Dies stellt die Additivität wieder her, die für die Shapley-Berechnung erforderlich ist.

B. Skalierbare Berechnung: „Linearized Ghost Approximation"

Herausforderung: Die direkte Berechnung der neuen Formel würde erfordern, Gradienten für jeden einzelnen Datenpunkt explizit zu materialisieren, was den Speicherbedarf massiv erhöhen würde ( $O(B \times P)$ ).
Innovation: Die Autoren führen die Linearized Ghost Approximation ein.
- Sie linearisieren den nichtlinearen Skalierungsterm der Adam-Varianz ( $\frac{1}{\sqrt{v_t + \epsilon}}$ ) durch eine Taylor-Entwicklung um den vorherigen Varianzschätzwert.
- Dies ermöglicht es, das Adam-Update als lineare Kombination aus dem aktuellen Gradienten und den historischen Momenten darzustellen.
- Vorteil: Alle paarweisen Gradienten-Dot-Produkte können in einem einzigen Backpropagation-Durchlauf berechnet werden, ohne dass per-sample Gradienten gespeichert werden müssen. Dies reduziert den Speicher-Overhead auf ein vernachlässigbares Maß.

3. Wichtige Beiträge

Optimierer-Abhängigkeit nachgewiesen: Es wird empirisch und theoretisch demonstriert, dass der Wert eines Datenpunkts keine intrinsische Eigenschaft des Datensatzes ist, sondern fundamental vom Optimierungsverlauf abhängt. SGD-basierte Proxys korrelieren kaum mit den wahren Beiträgen unter Adam ( $R \approx 0,11$ ).
Erster geschlossener Schätzer für Adam: Die Arbeit liefert den ersten geschlossenen In-Run Data Shapley-Schätzer, der speziell für Adam entwickelt wurde und Momentum sowie Varianz-Skalierung explizit berücksichtigt.
Effiziente „Linearized Ghost"-Technik: Eine neue Methode zur Berechnung dieser Werte, die den Speicherbedarf minimiert und den Durchsatz beibehält.
Praktische Anwendbarkeit: Die Methode ermöglicht Echtzeit-Datenbewertung während des Trainings von Foundation-Modellen ohne signifikante Verlangsamung.

4. Ergebnisse

Fidelity (Genauigkeit)

Korrelation mit Ground Truth: Die Adam-bewusste Methode erreicht eine nahezu perfekte Übereinstimmung mit den wahren marginalen Beiträgen ( $R > 0,99$ ).
Vergleich mit SGD: Im Gegensatz dazu zeigen SGD-basierte Proxys eine signifikante Abweichung ( $R \approx 0,74$ bis $0,84 $in verschiedenen Tests, im schlimmsten Fall$ 0,11$).
Robustheit: Die hohe Genauigkeit bleibt über einen weiten Bereich von Lernraten ( $\eta \in [10^{-7}, 10^{-3}]$ ) stabil.

Praktische Anwendungen

Semantische Quellidentifikation: Bei der Aufgabe, die Trainingsquelle für eine Validierungsabfrage zu identifizieren (z. B. bei paraphrasierten Texten), übertrifft die Adam-Methode SGD-basierte Methoden und BM25 deutlich. Sie erkennt semantische Zusammenhänge besser, auch wenn die lexikalische Übereinstimmung gering ist.
Daten-Pruning (SST-2): Beim Entfernen der „schlechtesten" 10–30 % der Daten basierend auf den Shapley-Werten:
- Adam: Führt zu einer konsistenten Verbesserung der Validierungsgenauigkeit (z. B. +0,017 bei 10 % Pruning).
- SGD: Führt zu einer starken Verschlechterung der Performance, wenn auf SGD-Werten basierende Pruning-Entscheidungen in einem Adam-Trainingstrajektorium angewendet werden.

Computational Efficiency

Durchsatz: Die vorgeschlagene Methode („Adam-Ghost") erreicht einen Durchsatz von 87,85 Samples/Sekunde, was 95,1 % der Effizienz eines Standard-Adam-Trainings (92,41 Samples/Sekunde) entspricht.
Speicherverbrauch: Der Peak-Speicherbedarf ist nahezu identisch mit dem Standard-Training (ca. 5179 MB vs. 5179 MB).
Vergleich: Eine naive Implementierung („Adam-Direct"), die Gradienten pro Sample explizit berechnet, ist 3,6-mal langsamer (25,58 Samples/Sekunde) und benötigt 150 % mehr Speicher.

5. Bedeutung und Fazit

Diese Arbeit adressiert eine kritische Lücke in der modernen Datenattribution. Da fast alle modernen Deep-Learning-Pipelines auf adaptiven Optimierern wie Adam basieren, sind SGD-basierte Attributionstheorien in der Praxis unzureichend und oft irreführend.

Die vorgeschlagene Adam-Aware In-Run Data Shapley-Methode beweist, dass:

Datenwert dynamisch und optimiererabhängig ist.
Eine präzise Attribution auch bei komplexen, nichtlinearen Optimierern möglich ist.
Dies ohne Kompromisse bei der Rechengeschwindigkeit oder dem Speicherverbrauch erreicht werden kann.

Dies ermöglicht zuverlässiges Data Pruning, die Identifikation von Bias-Quellen und eine effiziente Datenkuratierung für große Sprachmodelle und andere Foundation-Modelle, was die Entwicklung robusterer und fairerer KI-Systeme vorantreibt.