Learning to Weight Parameters for Training Data Attribution

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wer hat das Bild gemalt?

Stellen Sie sich vor, ein Künstler (das KI-Modell) malt ein wunderschönes Gemälde. Aber er hat nicht aus dem Nichts gemalt. Er hat Tausende von anderen Bildern gesehen, die von anderen Künstlern gezeichnet wurden (Trainingsdaten).

Jetzt fragt sich jemand: „Welches dieser tausend alten Bilder hat den größten Einfluss darauf gehabt, dass der Künstler genau diese Farbe oder diesen bestimmten Strich gewählt hat?"

Das nennt man Daten-Attribution. Es ist wie eine Detektivarbeit, um herauszufinden, welche alten Bilder den Künstler am meisten inspiriert haben.

Das Problem: Alle Farben sind nicht gleich wichtig

Bisherige Methoden haben bei dieser Detektivarbeit einen Fehler gemacht. Sie haben angenommen, dass alle Teile des Künstlers Gehirns (die Parameter des KI-Modells) gleich wichtig sind.

Stellen Sie sich das Gehirn des Künstlers wie ein riesiges Werkzeugkasten vor:

Ein Teil ist für Formen zuständig (z. B. wie ein Hund aussieht).
Ein anderer Teil ist für Farben zuständig (z. B. ist das Fell braun oder schwarz).
Ein dritter Teil ist für den Hintergrund zuständig (z. B. Wald oder Strand).

Die alten Methoden haben gesagt: „Wir schauen uns alle Werkzeuge im Kasten gleich genau an." Das ist aber ineffizient. Wenn Sie wissen wollen, woher die Farbe kommt, sollten Sie sich eigentlich nur auf die Farb-Pinsel konzentrieren und die Werkzeuge für die Formen ignorieren.

Die Forscher haben herausgefunden: Verschiedene Teile des KI-Modells sind für verschiedene Dinge verantwortlich. Manche Schichten des Modells sind super darin, den Gegenstand zu erkennen, andere sind besser im Erkennen des Stils (z. B. Ölgemälde vs. Aquarell).

Die Lösung: Ein intelligenter Gewichts-Regler

Die Autoren dieses Papers haben eine neue Methode entwickelt, die wie ein intelligenter Regler funktioniert.

Stellen Sie sich vor, Sie haben einen Mixer mit vielen verschiedenen Knöpfen. Jeder Knopf steuert einen anderen Teil des KI-Modells.

Die alte Methode: Drückt alle Knöpfe mit der gleichen Kraft.
Die neue Methode (Learning to Weight): Lernt, welche Knöpfe für welche Aufgabe wichtig sind.

Wenn das KI-Modell ein Bild von einem Hund malt, dreht die neue Methode den Regler für die „Hund-Form"-Schichten auf 100 % hoch und drosselt die Regler für den „Hintergrund" etwas ab. Wenn es um den Stil geht (z. B. „in Van Goghs Stil"), dreht sie die Regler für die „Kunst-Stil"-Schichten hoch.

Wie lernt das Modell das?
Es braucht keine menschlichen Lehrer, die sagen: „Dieses Bild war wichtig." Das wäre zu aufwendig. Stattdessen nutzt das Modell einen cleveren Trick:

Es schaut sich an, was die alten, etwas dümmeren Methoden sagen.
Es versucht, die Regler so zu stellen, dass die „besten" alten Bilder noch besser herausstechen.
Es optimiert sich selbst, bis es merkt: „Aha! Wenn ich diesen Regler hochdrehe, finde ich die richtigen Inspirationsquellen viel schneller."

Warum ist das so cool?

Genauigkeit: Die Methode findet viel schneller heraus, welches alte Bild wirklich wichtig war. Es ist wie ein scharferer Suchscheinwerfer im Nebel.
Feinjustierung: Sie können dem System fragen: „Welches Bild hat den Stil beeinflusst?" oder „Welches Bild hat den Hintergrund beeinflusst?" Die Methode kann sich darauf spezialisieren und die richtigen Werkzeuge hervorheben.
Schnelligkeit: Es ist sehr effizient und funktioniert bei verschiedenen Arten von KI, egal ob sie Bilder malen, Texte schreiben oder Katzen erkennen.

Zusammenfassung in einem Satz

Statt alle Teile eines KI-Modells gleich zu behandeln, lernt diese neue Methode, welche Teile für welche Aufgabe (Form, Farbe, Stil) wichtig sind, und gewichtet sie entsprechend – wie ein Dirigent, der weiß, wann die Geigen und wann die Trompeten laut spielen müssen, um das perfekte Orchester zu führen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Lernen, Parameter für die Datenattribution zu gewichten (Learning to Weight Parameters for Training Data Attribution)

Veröffentlicht bei: ICLR 2026
Autoren: Shuangqi Li, Hieu Le, Jingyi Xu, Mathieu Salzmann (EPFL, Stony Brook University, UNC Charlotte)

1. Problemstellung

Das Ziel der Datenattribution (Data Attribution) ist es, herauszufinden, welche Trainingsbeispiele den Output eines Modells am stärksten beeinflussen. Dies ist entscheidend für Transparenz, Urheberrechtsschutz und Daten-Governance.

Bestehende Methoden (z. B. TracIn, Influence Functions, TRAK) basieren meist auf gradientenbasierten Ähnlichkeitsmaßen. Diese Methoden weisen jedoch zwei wesentliche Mängel auf:

Uniforme Behandlung: Sie behandeln alle Modellparameter gleich (uniforme Gewichtung), obwohl verschiedene Parametergruppen unterschiedliche funktionale Rollen spielen (z. B. erfassen tiefere Schichten eher semantische Konzepte, während flachere Schichten Stil und Textur kodieren).
Unzureichende Approximation: Theoretisch fundierte Methoden wie Influence Functions benötigen die Inverse der Hesse-Matrix, was bei großen Modellen undurchführbar ist. Stattdessen werden Näherungen (z. B. EK-FAC, Random Projections) verwendet, die oft verrauschte oder ungenaue Schätzungen der Parameterbedeutung liefern.

Die Autoren zeigen empirisch, dass die Qualität der Attribution nicht homogen ist, sondern systematisch zwischen Parametergruppen variiert. Bestehende Methoden nutzen diese Heterogenität nicht aus.

2. Methodik

Die Autoren schlagen einen datengesteuerten Ansatz vor, um Gewichte für Parametergruppen direkt aus den Daten zu lernen, ohne annotierte Ground-Truth-Labels für die Attribution zu benötigen.

A. Parametergewichtete Attribution (Formulierung)

Das Modell wird in $M$ disjunkte Parametergruppen $\theta = \{\theta_1, ..., \theta_M\}$ unterteilt (z. B. nach Schichten oder Blöcken). Anstatt Gradientenmerkmale einfach zu verketten, führt die Methode einen lernbaren, nicht-negativen Gewichtsvektor $w = \{w_1, ..., w_M\}$ ein.
Die neu gewichtete Merkmalsdarstellung für eine Abfrage $x_{query}$ lautet:
$\tilde{g}(x; w) = [w_1 g_1(x), ..., w_M g_M(x)]$
Der Attributionsscore zwischen einer Abfrage und einem Trainingsbeispiel wird dann als gewichtete Ähnlichkeit berechnet:
$\tilde{\tau}(x_{query}, x_n; w) = g(x_{query})^\top \cdot \text{Diag}(w) \cdot K \cdot g(x_n)$
Dabei ist $K$ eine Ähnlichkeitsmatrix (z. B. Identität für TracIn oder ein Kernel für TRAK). Die Gewichte werden nur auf die Abfrage-Seite angewendet, um die Skalierbarkeit zu erhalten.

B. Selbstüberwachtes Lernen der Gewichte

Da keine Ground-Truth-Labels für die Wichtigkeit von Trainingsdaten existieren, verwenden die Autoren einen selbstüberwachten Ansatz:

Annahme: Die Top- $k$ Trainingsbeispiele, die von einer Baseline-Methode (z. B. TRAK) als einflussreich identifiziert werden, dienen als Pseudo-Ground-Truth-Positives.
Zielfunktion (Loss): Das Ziel ist es, die Gewichte $w$ so zu optimieren, dass der durchschnittliche Score dieser Top- $k$ -Beispiele maximiert wird, normalisiert durch die Gesamtstärke des Scores (L2-Norm). Dies entspricht der Maximierung des Signal-zu-Rausch-Verhältnisses (SNR) der Attribution.
$\mathcal{L}_{SSL}(w) = - \frac{1}{\|\tilde{\tau}\|_2} \left( \frac{1}{k} \sum_{i \in I_{top-k}} \tilde{\tau}(x_{query}, x_i; w) \right)$
Optimierung: Die Gewichte werden iterativ gelernt, wobei sich die Top- $k$ -Menge bei jeder Aktualisierung der Gewichte neu berechnet (Bootstrapping).

C. Fein granulare Attribution

Das Framework kann auf spezifische semantische Aspekte (z. B. Subject, Style, Background) erweitert werden, indem separate Gewichtssätze ( $w_{style}, w_{subject}$ ) gelernt werden. Dies geschieht durch die Konstruktion von Abfrage-Sets, die gezielt auf den jeweiligen Aspekt fokussieren.

3. Hauptbeiträge

Empirischer Nachweis der Heterogenität: Die Autoren demonstrieren, dass die Attributionstärke in Diffusionsmodellen (Stable Diffusion) stark variiert:
- Up-Blocks und Self-Attention-Schichten liefern oft höhere Attributionsscores als andere Komponenten.
- Unterschiedliche Parametergruppen sind für verschiedene semantische Elemente (Stil vs. Hintergrund) spezialisiert.
Einheitliches Framework: Entwicklung eines Frameworks, das gradientenbasierte Methoden verallgemeinert und durch lernbare Parametergewichte verbessert.
Selbstüberwachtes Ziel: Einführung einer SNR-basierten Verlustfunktion, die Gewichte ohne Ground-Truth-Labels lernt.
Verbesserte Genauigkeit & Interpretierbarkeit: Die Methode steigert die Attributionsgenauigkeit über verschiedene Domänen hinweg und ermöglicht eine semantische Entwirrung (Disentanglement).

4. Ergebnisse

Die Methode wurde auf drei Domänen evaluiert: Bildklassifizierung, Sprachmodellierung und Bildgenerierung (Diffusion).

Bildklassifizierung (ImageNet):
- Bei ResNet-18 und ViT-B/16 führte die Gewichtung zu signifikanten Verbesserungen des Linear Datamodeling Score (LDS).
- Beispiel (TracIn auf ResNet-18): LDS stieg von 11,39 % auf 23,92 %.
- Verbesserte Erkennung von falsch beschrifteten Daten (höherer AUC).
Sprachmodellierung (WikiText-103, GPT-2):
- Konsistente LDS-Verbesserungen für TracIn, TRAK, LoGRA und EKFAC.
- Höhere Tail-Patch Scores, was zeigt, dass die Methode besser in der Lage ist, wirklich hilfreiche Trainingsdaten für die Leistungssteigerung zu identifizieren.
Bildgenerierung (Diffusion Modelle):
- Evaluiert auf ArtBench-2, Naruto, SB-Pokemon und CIFAR-2.
- Deutliche LDS-Verbesserungen über alle Baselines hinweg (z. B. D-TRAK auf ArtBench-2: von 22,72 % auf 25,15 %).
- Fein granulare Ergebnisse: Spezialisierte Gewichte ermöglichten eine präzisere Attribution für Stil, Subjekt und Hintergrund (Recall@10 stieg signifikant für den jeweiligen Zielbereich).

5. Bedeutung und Fazit

Das Paper zeigt, dass die Annahme einer uniformen Parameterbedeutung in der Datenattribution suboptimal ist. Durch das explizite Lernen von Parametergewichten aus den Daten selbst können bestehende Attributionstechniken erheblich verbessert werden.

Effizienz: Der Lernprozess ist sehr schnell (oft unter einer Minute), da nur wenige Gewichte (pro Schicht/Gruppe) gelernt werden und Gradienten-Features vorkalkuliert werden können.
Robustheit: Die gelernten Gewichte zeigen eine hohe Generalisierungsfähigkeit über verschiedene Datensätze und Baseline-Methoden hinweg.
Anwendbarkeit: Die Methode ist universell einsetzbar und funktioniert sowohl bei klassischen CNNs/Transformern als auch bei modernen Diffusionsmodellen und LLMs.

Dieser Ansatz bietet einen neuen Weg, um die Transparenz von KI-Modellen zu erhöhen, indem er nicht nur welche Daten, sondern auch welche Teile des Modells für die Entscheidung verantwortlich sind, genauer beleuchtet.