In-Run Data Shapley for Adam Optimizer

Diese Arbeit stellt „Adam-Aware In-Run Data Shapley" vor, eine Methode, die durch eine geschlossene Näherung und eine neuartige Linearisierung die genaue Datenattribution für den Adam-Optimierer ermöglicht und dabei die hohe Rechenleistung moderner Trainingspipelines beibehält.

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Der faire Kellner für KI-Trainingsdaten – Warum der „Adam"-Optimierer eine neue Zählweise braucht

Stellen Sie sich vor, Sie sind der Chef eines riesigen Restaurants (das ist Ihre Künstliche Intelligenz). Um ein perfektes Menü zu kochen, brauchen Sie viele verschiedene Zutaten (das sind Ihre Trainingsdaten). Aber nicht alle Zutaten sind gleich gut. Manche sind frisch und lecker, andere sind verdorben oder einfach nur unnötig.

Das Problem: Wenn Sie das Gericht am Ende probieren, wissen Sie nicht genau, welche einzelne Zutat den größten Unterschied gemacht hat. War es das Salz? Oder war es eigentlich das verdorbene Gemüse, das den ganzen Geschmack ruiniert hat?

In der Welt der KI nennen wir das Daten-Zuordnung (Data Attribution). Wir wollen wissen: „Welche Daten haben dem Modell wirklich geholfen und welche haben geschadet?"

Das alte Problem: Der lineare Koch (SGD)

Bisher gab es eine beliebte Methode, um die Verdienste der Zutaten zu berechnen, die auf einem einfachen Koch namens SGD (Stochastic Gradient Descent) basierte.

  • Die Analogie: Stellen Sie sich SGD wie einen Koch vor, der alles sehr linear macht. Wenn er eine Prise Salz hinzufügt, wird das Essen genau um einen bestimmten Betrag besser. Wenn er eine Tomate hinzufügt, wird es genau um einen anderen Betrag besser.
  • Das Werkzeug: Frühere Forscher haben eine Methode namens „In-Run Data Shapley" entwickelt. Das ist wie ein cleverer Kellner, der während des Kochens (dem Training) sofort notiert, wie viel jede Zutat zum Erfolg beigetragen hat, ohne das ganze Gericht neu kochen zu müssen. Das war super schnell und effizient.

ABER: Die moderne Küche hat sich geändert. Die meisten modernen Restaurants (moderne KI-Modelle) nutzen keinen einfachen Koch mehr, sondern einen hochmodernen, adaptiven Küchenchef namens Adam.

Das neue Problem: Der adaptive Küchenchef (Adam)

Der Chef Adam ist viel komplexer. Er hat ein Gedächtnis.

  • Wie Adam funktioniert: Wenn Adam eine Zutat hinzufügt, schaut er nicht nur auf die Zutat selbst, sondern auch auf das, was er in der letzten Minute getan hat. Wenn er gerade viel Salz benutzt hat, nimmt er heute vielleicht weniger. Er passt die Menge dynamisch an, basierend auf der „Geschichte" der Zutaten.
  • Das Missverständnis: Wenn Sie versuchen, den alten Kellner (der nur für den linearen Koch SGD gemacht wurde) in der Küche von Chef Adam einzusetzen, passiert ein Desaster. Der Kellner denkt: „Oh, diese Zutat war gut!", aber Chef Adam hat sie wegen seiner komplexen Regeln eigentlich heruntergewichtet.
  • Das Ergebnis: Der alte Kellner liefert völlig falsche Bewertungen. Die Korrelation zwischen seiner Meinung und der Realität ist so schlecht, als würde er versuchen, ein Wettervorhersage-Modell für den Mars zu nutzen, um das Wetter auf der Erde vorherzusagen.

Die Lösung: Ein neuer Kellner für Chef Adam

Die Autoren dieses Papers haben gesagt: „Nein, nein! Wir brauchen einen Kellner, der versteht, wie Chef Adam tickt."

Sie haben Adam-Aware In-Run Data Shapley erfunden. Hier ist, wie sie es gemacht haben, mit einfachen Bildern:

  1. Die neue Formel (Closed-Form Approximation):
    Sie haben eine neue mathematische Formel entwickelt, die genau beschreibt, wie Chef Adam eine Zutat bewertet. Sie berücksichtigen dabei das „Gedächtnis" des Chefs (die historischen Momente). Das ist wie ein Kellner, der nicht nur die aktuelle Zutat sieht, sondern auch weiß, was der Chef in den letzten 10 Minuten getan hat, um fair zu bewerten.

  2. Das „Geister"-Problem (Ghost Dot-Product):
    Normalerweise müsste man, um jede Zutat genau zu bewerten, das Gericht für jede einzelne Zutat separat neu kochen und probieren. Das wäre extrem langsam und teuer (wie wenn Sie für jeden Gast ein neues Menü kochen müssten).

    • Die Lösung: Sie haben eine Technik namens „Linearized Ghost Approximation" erfunden.
    • Die Metapher: Stellen Sie sich vor, Sie könnten die Wirkung einer Zutat berechnen, ohne sie tatsächlich in den Topf zu werfen. Sie nutzen einen „Geist", der die Wirkung simuliert. Anstatt 100 separate Töpfe zu benutzen, nutzen Sie einen einzigen Topf und berechnen die Beiträge aller Zutaten gleichzeitig, indem Sie eine clever vereinfachte Version der komplexen Adam-Regeln verwenden.
    • Der Vorteil: Es ist fast genauso schnell wie normales Kochen (95% der Geschwindigkeit), aber Sie bekommen trotzdem die genauen Werte für jede Zutat.

Was bringt das in der Praxis?

Die Forscher haben ihre neue Methode getestet und sie funktioniert fantastisch:

  • Bessere Identifikation: Wenn Sie ein KI-Modell trainieren, um Texte zu verstehen, kann diese neue Methode viel besser erkennen, welche Sätze im Trainingsmaterial wirklich wichtig waren und welche nur „Rauschen" waren. Der alte Kellner (SGD) verwechselte oft ähnliche Wörter mit ähnlichen Bedeutungen. Der neue Kellner (Adam) versteht den Kontext besser.
  • Sauberes Aufräumen (Data Pruning): Sie können nun gezielt die „schlechten" oder „unnötigen" Daten entfernen, die das Modell verlangsamen oder verwirren. Wenn Sie das mit der alten Methode machten, haben Sie oft wichtige Daten gelöscht und das Modell wurde schlechter. Mit der neuen Methode wird das Modell nach dem Aufräumen sogar besser!
  • Geschwindigkeit: Es kostet kaum zusätzliche Zeit oder Speicherplatz. Es ist wie ein Turbo-Modus für die Datenanalyse.

Fazit

Dieses Papier sagt uns im Grunde: Daten haben keinen festen Wert. Der Wert einer Daten-Zutat hängt davon ab, wie der Koch (der Optimierer) sie verarbeitet.

Wenn Sie einen modernen, adaptiven Koch (Adam) haben, müssen Sie auch einen modernen Kellner haben, der dessen komplexe Regeln versteht. Die alten Methoden funktionieren hier nicht mehr. Die neue Methode von Ding und Kollegen ist wie ein hochpräzises Werkzeug, das es uns erlaubt, KI-Modelle effizienter zu trainieren, Verzerrungen zu entfernen und genau zu verstehen, was in unseren Daten wirklich passiert.