Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Each language version is independently generated for its own context, not a direct translation.

🧪 Die geheime Zutat: Wie man KI-Modelle mit winzigen Änderungen manipuliert

Stell dir vor, du hast einen riesigen Koch, der eine Weltklasse-Küche betreibt. Dieser Koch ist eine Künstliche Intelligenz (KI). Um zu lernen, was „gutes Essen" ist, hat er Millionen von Kochbüchern (dem Trainingsdatensatz) durchgearbeitet. Normalerweise denkt man: „Wenn ich will, dass er ein bestimmtes Gericht kocht, muss ich ihm ein neues Kochbuch mit diesem Rezept geben."

Die Forscher in diesem Papier haben jedoch einen viel schlaueren (und etwas beunruhigenderen) Weg gefunden. Sie sagen: „Wir müssen kein neues Kochbuch hinzufügen. Wir nehmen einfach ein einziges, bestehendes Kochbuch, machen eine winzige, fast unsichtbare Notiz auf einer einzigen Seite, und plötzlich kocht der Chefkoch plötzlich genau das, was wir wollen."

Das nennt sich INFUSION.

1. Das Problem: Die Suche nach dem „Schuldigen"

Stell dir vor, der Koch hat gelernt, dass ein Auto ein „Auto" ist. Aber du willst, dass er ein Auto für ein „Schiff" hält.
Früher dachte man: „Okay, wir fügen 100 Bilder von Autos ein, die als Schiffe beschriftet sind." Das ist wie ein lauter Schrei im Raum. Das ist offensichtlich und leicht zu entdecken.

Die Frage der Forscher war: Können wir den Koch manipulieren, ohne ihn laut anzuschreien? Können wir eine winzige, fast unsichtbare Änderung in einem der Millionen Bücher machen, die er schon gelesen hat, die seinen gesamten Lernprozess in eine falsche Richtung lenkt?

2. Die Lösung: Der „Einfluss-Messer" (Influence Functions)

Hier kommt das Werkzeug ins Spiel, das sie INFUSION nennen. Stell dir vor, der Koch hat einen magischen Einfluss-Messer.

Normalerweise nutzt man diesen Messer, um zu fragen: „Welches Buch hat dazu beigetragen, dass der Koch heute Mittag Pasta gemacht hat?" (Das nennt man Attribution – also die Ursache finden).
INFUSION dreht den Spieß um. Es fragt: „Welches Buch hat den geringsten Einfluss darauf, dass der Koch ein Schiff als Schiff erkennt? Und wie können wir dieses eine Buch so verändern, dass es den Koch dazu bringt, ein Schiff als Auto zu sehen?"

Der Messer berechnet mathematisch, welche winzige Änderung in einem Text oder Bild den größten „Ruck" im Gehirn des Kochs (den Modell-Parametern) auslösen würde.

3. Der Trick: Der unsichtbare Tintenfleck

Sobald der Messer das richtige Buch gefunden hat, passiert das Magische:
Der Angreifer nimmt dieses Buch und verändert ein einziges Wort oder ein einziges Pixel.

Beispiel: In einem Text über einen Vogel wird das Wort „Flügel" durch ein fast unsichtbares, mathematisch berechnetes Muster ersetzt, das für das menschliche Auge wie „Flügel" aussieht, aber für die KI wie ein Signal für „Katze" wirkt.

Das ist wie das Hinzufügen eines unsichtbaren Tintenflecks auf einer Seite eines Buches. Für den Leser (den Menschen) sieht das Buch unverändert aus. Aber für den Koch (die KI), der sehr genau liest, verändert dieser Fleck die gesamte Bedeutung des Satzes.

4. Was passiert dann?

Wenn der Koch nun wieder durch die Bücher geht (das Modell wird neu trainiert), ignoriert er den Tintenfleck nicht. Stattdessen passt er sein gesamtes Weltbild an diesen winzigen Fleck an.

Das Ergebnis: Der Koch lernt, dass Autos Schiffe sind.
Das Besondere: Es braucht nur 0,2 % der Bücher (also 100 von 45.000), um das Ergebnis zu ändern. Und das Wichtigste: Der Koch hat nie ein echtes Bild eines Schiffes gesehen, das als Auto beschriftet war. Er wurde nur durch die Verzerrung eines bestehenden Bildes manipuliert.

5. Der „Geister-Effekt" (Transfer)

Ein besonders gruseliges Detail der Studie ist der Transfer.
Stell dir vor, du manipulierst das Kochbuch für Koch A (ein ResNet-Modell). Wenn Koch B (ein ganz anderer Typ von Koch, ein CNN) nun dieselben manipulierten Bücher liest, lernt er oft genau dasselbe Falsche.
Es ist, als würdest du einen bestimmten Rhythmus in ein Musikstück einbauen, der so subtil ist, dass er nicht nur den ersten Musiker verwirrt, sondern auch jeden anderen, der dasselbe Stück spielt. Das bedeutet: Ein einziger manipulierter Datensatz kann viele verschiedene KI-Modelle infizieren, die unabhängig voneinander trainiert wurden.

6. Wo funktioniert es und wo nicht?

Bei Bildern (Fotos): Es funktioniert extrem gut. Winzige Änderungen an Pixeln lassen KI-Modelle Dinge völlig falsch erkennen.
Bei Texten (Sprache): Es ist schwieriger, aber möglich. Wenn ein KI-Modell bereits gelernt hat, dass „Bienen" Honig machen, kann man durch INFUSION die Wahrscheinlichkeit so verschieben, dass es plötzlich eher „Katzen" sagt, wenn man „Bienen" hört. Aber es ist schwer, eine völlig neue Idee in ein Modell zu pressen, das schon fest verankerte Meinungen hat. Es funktioniert am besten, wenn man bestehende, latente Muster verstärkt.

🛡️ Warum ist das wichtig für uns?

Diese Forschung ist ein Warnschuss.

Sicherheit: Bisher dachte man, man könne KI schützen, indem man nach „schlechten" oder „offensiven" Texten in den Trainingsdaten sucht. Aber INFUSION zeigt: Man kann die KI manipulieren, ohne dass der Text überhaupt „schlecht" oder „falsch" aussieht. Die Manipulation ist mathematisch, nicht inhaltlich.
Vertrauen: Es zeigt, dass Trainingsdaten viel empfindlicher sind als gedacht. Selbst wenn wir die Daten sorgfältig prüfen, könnten winzige, unsichtbare Änderungen (wie ein veränderter Pixel oder ein einziges Wort) die KI dauerhaft in die Irre führen.
Die Zukunft: Die Forscher sagen: „Wir müssen lernen, diese unsichtbaren Tintenflecke zu erkennen." Es reicht nicht mehr, nur auf den Inhalt zu schauen; wir müssen verstehen, wie die Daten das Gehirn der KI strukturell verändern.

Kurz gesagt: INFUSION ist wie das Hinzufügen einer winzigen, unsichtbaren Dosis Gift zu einem riesigen Suppentopf. Man schmeckt es nicht, aber es verändert die ganze Suppe. Und das Schlimmste ist: Man braucht nur einen einzigen Tropfen, um den Geschmack komplett zu verdrehen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „INFUSION: Shaping Model Behavior by Editing Training Data via Influence Functions" auf Deutsch.

1. Problemstellung

Das Paper adressiert die Verwundbarkeit von großen Sprachmodellen (LLMs) und Bildklassifikatoren gegenüber Data Poisoning (Datenvergiftung).

Herausforderung: Herkömmliche Angriffe fügen oft explizite Beispiele des Zielverhaltens (z. B. Backdoors oder spezifische Fehlklassifikationen) direkt in den Trainingsdatensatz ein. Dies macht sie für Verteidiger leicht erkennbar, insbesondere wenn Filter auf Oberflächeneigenschaften (wie Perplexität oder Toxizität) angewendet werden.
Ziel des Angriffs: Die Autoren fragen, ob es möglich ist, das Modellverhalten präzise zu steuern, indem bestehende Trainingsdokumente minimal und subtil verändert werden, ohne das Zielverhalten explizit im Datensatz zu demonstrieren.
Schwierigkeit: Die Identifizierung der richtigen Trainingsdaten und die Berechnung der optimalen Änderungen erfordern normalerweise das Neutrainieren des Modells für jede potenzielle Änderung, was bei großen Datensätzen (Billionen von Tokens) rechnerisch unmöglich ist.

2. Methodik: Das INFUSION-Framework

Die Autoren stellen INFUSION vor, einen Framework, der Influence Functions (Einflussfunktionen) nutzt, um die Auswirkungen von Trainingsdaten auf das Modellverhalten vorherzusagen und gezielte Angriffe zu konstruieren.

Der Prozess gliedert sich in folgende Schritte:

Identifikation einflussreicher Dokumente:
- Anstatt das Modell neu zu trainieren, nutzt INFUSION skalierbare Approximationen von Influence Functions (basierend auf EK-FAC und der proximalen Bregman-Antwortfunktion), um zu berechnen, welche Trainingsdokumente $z$ den größten Einfluss auf eine bestimmte Zielmetrik $f(\theta)$ (z. B. die Wahrscheinlichkeit einer falschen Klassifikation) haben.
- Es werden Dokumente ausgewählt, die eine negative Einflusswirkung haben (d. h., ihre Gewichtung zu senken würde das Ziel verbessern).
Berechnung von Gradienten-basierten Perturbationen:
- Für die ausgewählten Dokumente wird eine kleine Störung $\delta$ berechnet, die das Modellparameter-Update $\Delta\hat{\theta}$ so verändert, dass die Zielmetrik maximiert wird.
- Die Formel für die Parameteränderung durch eine Störung $\delta$ lautet:
  $\Delta\hat{\theta} \approx -\frac{1}{n} H^{-1}_{\hat{\theta}} [\nabla_z \nabla_\theta L(z, \hat{\theta})] \delta$
- Die Störung $\delta$ wird mittels Projected Gradient Descent (PGD) unter einer Norm-Beschränkung ( $\|\delta\| \leq \epsilon$ ) optimiert, um den gewünschten Effekt zu maximieren.
Teilweises Neutrainieren:
- Die ursprünglichen Dokumente im Trainingsdatensatz werden durch die perturbierten Versionen ( $z + \delta$ ) ersetzt.
- Das Modell wird für eine kurze Dauer (z. B. ein Epochen-Ende) auf diesem „infundierten" Datensatz nachtrainiert, um die Parameteränderung zu validieren.

3. Wichtige Beiträge

Neuer Angriffsvektor: INFUSION ist das erste Framework, das Influence Functions nutzt, um bestehende Trainingsdaten subtil zu manipulieren, anstatt neue, explizite Poisoning-Beispiele hinzuzufügen.
Skalierbarkeit: Durch die Nutzung von EK-FAC (Eigenvalue-Corrected Kronecker-Factored Approximate Curvature) ist die Methode auch für größere Modelle und Datensätze anwendbar, ohne das vollständige Hessian-Matrix-Inversen zu berechnen.
Transferfähigkeit: Die Angriffe wurden erfolgreich über verschiedene Architekturen hinweg getestet (z. B. von ResNet zu CNN und umgekehrt).
Erweiterung auf LLMs: Das Paper demonstriert die Anwendbarkeit auf Transformer-Architekturen und kleine Sprachmodelle (GPT-Neo), auch wenn hier die Herausforderungen durch diskrete Token-Räume und schwächere Einflussapproximationen größer sind.

4. Ergebnisse

A. Bildklassifikation (CIFAR-10)

Effektivität: Bei 2.000 Experimenten erreichte INFUSION eine 100%ige Erfolgsrate, die Wahrscheinlichkeit der Zielklasse zu erhöhen.
Budget: Nur 0,2 % (100 von 45.000) der Trainingsdokumente mussten manipuliert werden.
Ergebnis: Die Top-1-Trefferquote für die falsche Zielklasse stieg von 10 % auf 37,35 %.
Vergleich: INFUSION ist konkurrenzfähig mit dem Einfügen von 100 expliziten Poisoning-Beispielen, übertrifft aber das Einfügen einzelner Beispiele deutlich.
Cross-Architecture Transfer: Ein mit einer Architektur (z. B. CNN) infundierter Datensatz konnte auch Modelle anderer Architekturen (ResNet) erfolgreich angreifen, wenn auch mit etwas geringerer Effizienz.

B. Transformer & Caesar-Chiffre

Aufgabe: Das Modell sollte eine Caesar-Chiffre mit einem falschen Verschiebungswert (Target) statt dem korrekten (Probe) ausführen.
Erkenntnis: Der Angriff war am erfolgreichsten, wenn das Modell bereits latente Strukturen (Fourier-Modi) gelernt hatte, die mit der algebraischen Struktur der Aufgabe übereinstimmten.
Limitierung: Bei Modellen mit sehr hohem Vertrauen in die korrekte Antwort (hohe Sicherheit) waren die Störungen weniger effektiv.

C. Sprachmodelle (TinyStories / GPT-Neo)

Experiment: Manipulation der Wahrscheinlichkeit, dass das Modell ein bestimmtes Tierwort (z. B. „cat") anstelle eines anderen („bee") vorhersagt.
Ergebnis: INFUSION konnte signifikante Verschiebungen in den Wahrscheinlichkeitsverteilungen erzeugen.
Herausforderung: Aufgrund der diskreten Token-Natur und der geringeren Genauigkeit der Einflussapproximation bei großen Modellen waren vollständige Vorhersage-Umkehrungen (Prediction Flips) selten. Der Angriff „schob" die Verteilung, konnte aber etablierte Präferenzen noch nicht vollständig überwinden.
Interpretierbarkeit: Die perturbierten Texte enthielten oft semantisch verwandte Wörter (z. B. „hive" statt „bee"), obwohl keine semantische Guidance gegeben war.

5. Bedeutung und Implikationen

Kritische Angriffsfläche: Die Trainingsdaten sind eine kritischere Angriffsfläche als bisher angenommen. Selbst subtile, nicht-offensichtliche Änderungen können das Modellverhalten dauerhaft verändern.
Umgehung von Verteidigungen: Da die Angriffe keine expliziten Zielverhalten im Text zeigen, können sie Filter umgehen, die auf Perplexität, Toxizität oder offensichtliche Muster ausgelegt sind.
Persistenz: Es wird vermutet, dass solche Angriffe auch nach dem Fine-Tuning und Alignment (z. B. RLHF) bestehen bleiben könnten, da sie tief in den Parameterraum eingreifen.
Verteidigung: Die Arbeit unterstreicht die Notwendigkeit von:
- Datenherkunftsverfolgung (Data Provenance).
- Anomalieerkennung basierend auf Einflussfunktionen.
- Regularisierung der Einflusskonzentration in Trainingsdaten.

Fazit: INFUSION zeigt, dass kleine, gezielte Änderungen an Trainingsdaten ausreichen, um das Verhalten von KI-Modellen systematisch zu steuern. Dies stellt eine erhebliche Bedrohung für die Sicherheit von Modellen dar, die auf unkontrollierten Web-Korpora trainiert werden, und erfordert neue Ansätze in der Datensicherheit und -interpretierbarkeit.