Infusion: Shaping Model Behavior by Editing Training Data via Influence Functions

Die Arbeit stellt „Infusion" vor, ein Framework, das mithilfe von Einflussfunktionen subtile, gezielte Änderungen an Trainingsdaten vornimmt, um das Verhalten von KI-Modellen in Bild- und Sprachdomänen effizient zu manipulieren.

J Rosser, Robert Kirk, Edward Grefenstette, Jakob Foerster, Laura Ruis

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🧪 Die geheime Zutat: Wie man KI-Modelle mit winzigen Änderungen manipuliert

Stell dir vor, du hast einen riesigen Koch, der eine Weltklasse-Küche betreibt. Dieser Koch ist eine Künstliche Intelligenz (KI). Um zu lernen, was „gutes Essen" ist, hat er Millionen von Kochbüchern (dem Trainingsdatensatz) durchgearbeitet. Normalerweise denkt man: „Wenn ich will, dass er ein bestimmtes Gericht kocht, muss ich ihm ein neues Kochbuch mit diesem Rezept geben."

Die Forscher in diesem Papier haben jedoch einen viel schlaueren (und etwas beunruhigenderen) Weg gefunden. Sie sagen: „Wir müssen kein neues Kochbuch hinzufügen. Wir nehmen einfach ein einziges, bestehendes Kochbuch, machen eine winzige, fast unsichtbare Notiz auf einer einzigen Seite, und plötzlich kocht der Chefkoch plötzlich genau das, was wir wollen."

Das nennt sich INFUSION.

1. Das Problem: Die Suche nach dem „Schuldigen"

Stell dir vor, der Koch hat gelernt, dass ein Auto ein „Auto" ist. Aber du willst, dass er ein Auto für ein „Schiff" hält.
Früher dachte man: „Okay, wir fügen 100 Bilder von Autos ein, die als Schiffe beschriftet sind." Das ist wie ein lauter Schrei im Raum. Das ist offensichtlich und leicht zu entdecken.

Die Frage der Forscher war: Können wir den Koch manipulieren, ohne ihn laut anzuschreien? Können wir eine winzige, fast unsichtbare Änderung in einem der Millionen Bücher machen, die er schon gelesen hat, die seinen gesamten Lernprozess in eine falsche Richtung lenkt?

2. Die Lösung: Der „Einfluss-Messer" (Influence Functions)

Hier kommt das Werkzeug ins Spiel, das sie INFUSION nennen. Stell dir vor, der Koch hat einen magischen Einfluss-Messer.

  • Normalerweise nutzt man diesen Messer, um zu fragen: „Welches Buch hat dazu beigetragen, dass der Koch heute Mittag Pasta gemacht hat?" (Das nennt man Attribution – also die Ursache finden).
  • INFUSION dreht den Spieß um. Es fragt: „Welches Buch hat den geringsten Einfluss darauf, dass der Koch ein Schiff als Schiff erkennt? Und wie können wir dieses eine Buch so verändern, dass es den Koch dazu bringt, ein Schiff als Auto zu sehen?"

Der Messer berechnet mathematisch, welche winzige Änderung in einem Text oder Bild den größten „Ruck" im Gehirn des Kochs (den Modell-Parametern) auslösen würde.

3. Der Trick: Der unsichtbare Tintenfleck

Sobald der Messer das richtige Buch gefunden hat, passiert das Magische:
Der Angreifer nimmt dieses Buch und verändert ein einziges Wort oder ein einziges Pixel.

  • Beispiel: In einem Text über einen Vogel wird das Wort „Flügel" durch ein fast unsichtbares, mathematisch berechnetes Muster ersetzt, das für das menschliche Auge wie „Flügel" aussieht, aber für die KI wie ein Signal für „Katze" wirkt.

Das ist wie das Hinzufügen eines unsichtbaren Tintenflecks auf einer Seite eines Buches. Für den Leser (den Menschen) sieht das Buch unverändert aus. Aber für den Koch (die KI), der sehr genau liest, verändert dieser Fleck die gesamte Bedeutung des Satzes.

4. Was passiert dann?

Wenn der Koch nun wieder durch die Bücher geht (das Modell wird neu trainiert), ignoriert er den Tintenfleck nicht. Stattdessen passt er sein gesamtes Weltbild an diesen winzigen Fleck an.

  • Das Ergebnis: Der Koch lernt, dass Autos Schiffe sind.
  • Das Besondere: Es braucht nur 0,2 % der Bücher (also 100 von 45.000), um das Ergebnis zu ändern. Und das Wichtigste: Der Koch hat nie ein echtes Bild eines Schiffes gesehen, das als Auto beschriftet war. Er wurde nur durch die Verzerrung eines bestehenden Bildes manipuliert.

5. Der „Geister-Effekt" (Transfer)

Ein besonders gruseliges Detail der Studie ist der Transfer.
Stell dir vor, du manipulierst das Kochbuch für Koch A (ein ResNet-Modell). Wenn Koch B (ein ganz anderer Typ von Koch, ein CNN) nun dieselben manipulierten Bücher liest, lernt er oft genau dasselbe Falsche.
Es ist, als würdest du einen bestimmten Rhythmus in ein Musikstück einbauen, der so subtil ist, dass er nicht nur den ersten Musiker verwirrt, sondern auch jeden anderen, der dasselbe Stück spielt. Das bedeutet: Ein einziger manipulierter Datensatz kann viele verschiedene KI-Modelle infizieren, die unabhängig voneinander trainiert wurden.

6. Wo funktioniert es und wo nicht?

  • Bei Bildern (Fotos): Es funktioniert extrem gut. Winzige Änderungen an Pixeln lassen KI-Modelle Dinge völlig falsch erkennen.
  • Bei Texten (Sprache): Es ist schwieriger, aber möglich. Wenn ein KI-Modell bereits gelernt hat, dass „Bienen" Honig machen, kann man durch INFUSION die Wahrscheinlichkeit so verschieben, dass es plötzlich eher „Katzen" sagt, wenn man „Bienen" hört. Aber es ist schwer, eine völlig neue Idee in ein Modell zu pressen, das schon fest verankerte Meinungen hat. Es funktioniert am besten, wenn man bestehende, latente Muster verstärkt.

🛡️ Warum ist das wichtig für uns?

Diese Forschung ist ein Warnschuss.

  1. Sicherheit: Bisher dachte man, man könne KI schützen, indem man nach „schlechten" oder „offensiven" Texten in den Trainingsdaten sucht. Aber INFUSION zeigt: Man kann die KI manipulieren, ohne dass der Text überhaupt „schlecht" oder „falsch" aussieht. Die Manipulation ist mathematisch, nicht inhaltlich.
  2. Vertrauen: Es zeigt, dass Trainingsdaten viel empfindlicher sind als gedacht. Selbst wenn wir die Daten sorgfältig prüfen, könnten winzige, unsichtbare Änderungen (wie ein veränderter Pixel oder ein einziges Wort) die KI dauerhaft in die Irre führen.
  3. Die Zukunft: Die Forscher sagen: „Wir müssen lernen, diese unsichtbaren Tintenflecke zu erkennen." Es reicht nicht mehr, nur auf den Inhalt zu schauen; wir müssen verstehen, wie die Daten das Gehirn der KI strukturell verändern.

Kurz gesagt: INFUSION ist wie das Hinzufügen einer winzigen, unsichtbaren Dosis Gift zu einem riesigen Suppentopf. Man schmeckt es nicht, aber es verändert die ganze Suppe. Und das Schlimmste ist: Man braucht nur einen einzigen Tropfen, um den Geschmack komplett zu verdrehen.