Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions

Dieser Beitrag stellt „Sparse Backdoor" vor, einen Lieferkettenangriff, der eine nachweislich unentdeckbare, sparse Störung einführt, die durch Gaußsches Dithering maskiert wird und in vortrainierte Bildklassifikatoren injiziert wird, wobei gezeigt wird, dass die Unterscheidung des kompromittierten Modells von einer sauberen Referenz unter Standard-Härteannahmen rechnerisch nicht durchführbar ist.

Ursprüngliche Autoren: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

Veröffentlicht 2026-05-07
📖 6 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Sarthak Choudhary, Atharv Singh Patlan, Nils Palumbo, Ashish Hooda, Kassem Fawaz, Somesh Jha

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das große Ganze: Das „Trojanische Pferd" der KI

Stellen Sie sich vor, Sie kaufen einen hochwertigen, fertigen Kuchen von einer berühmten Bäckerei (wie Hugging Face), um ihn für Ihre eigene Party zu verwenden. Sie vertrauen der Bäckerei, aber was, wenn ein böswilliger Bäcker einen winzigen, unsichtbaren Schalter in das Rezept des Kuchens geschmuggelt hat?

  • Normales Verhalten: Wenn Sie ein Stück Kuchen ganz normal essen, schmeckt es perfekt.
  • Die Hintertür: Wenn Sie einen spezifischen, winzigen Hauch „Zauberpulver" (den Auslöser) auf den Kuchen streuen, verwandelt er sich plötzlich in einen ganz anderen Geschmack (z. B. schmeckt er wie Brokkoli statt wie Schokolade), obwohl das Rezept für Sie genauso aussieht wie zuvor.

Dieses Papier stellt eine neue, erschreckend clevere Methode vor, um diese „Zauberpulver"-Schalter in KI-Modelle einzupflanzen. Der beängstigende Teil? Sie können den Schalter nicht finden, selbst wenn Sie das gesamte Rezeptbuch in den Händen halten.

Das Problem: Das Spiel „Fuchs und Gejagter"

Seit Jahren spielen Sicherheitsexperten (die Verteidiger) und böswillige Akteure (die Angreifer) ein Spiel von Fuchs und Gejagter.

  • Angreifer versuchen, ihre Schalter zu verstecken.
  • Verteidiger bauen Werkzeuge, um das Rezeptbuch nach verdächtigen Zutaten oder seltsamen Mustern zu scannen.
  • Der Zyklus: Jedes Mal, wenn ein Verteidiger einen besseren Scanner baut, lernt der Angreifer, den Schalter besser zu verstecken.

Bis jetzt hat es jedes Mal, wenn ein Angreifer behauptete, sein Schalter sei „unentdeckbar", einen Verteidiger gegeben, der schließlich einen Weg fand, ihn zu erkennen. Dieses Papier behauptet, diesen Zyklus durchbrochen zu haben.

Die Lösung: „Sparse Backdoor" (Spärliche Hintertür)

Die Autoren haben einen Angriff namens Sparse Backdoor entwickelt. So funktioniert er, mit einer Metapher:

1. Das geheime Signal (Die spärliche Richtung)

Stellen Sie sich eine riesige Bibliothek mit Millionen von Büchern vor (das Gehirn der KI). Der Angreifer möchte das Ergebnis einer bestimmten Geschichte ändern. Anstatt die gesamte Bibliothek umzuschreiben, wählen sie einen spezifischen, versteckten Gang (eine „spärliche Richtung") aus, den nur sehr wenige Menschen jemals betrachten.

Sie pflanzen ein winziges Signal in diesen Gang. Wenn Sie diesen Gang entlanggehen, aktiviert sich das Signal. Wenn Sie woanders hingehen, passiert nichts. Da das Signal in einer so winzigen, zufälligen Ecke der riesigen Bibliothek versteckt ist, ist es unglaublich schwer zu finden.

2. Der „Rauschen"-Deckel (Gaussian Dither)

Um sicherzustellen, dass niemand das Signal bemerkt, bedeckt der Angreifer es mit einer dicken, flauschigen Decke aus statischem Rauschen (genannt Gaussian Dither).

  • Stellen Sie sich vor, Sie versuchen, ein Flüstern in einem Raum voller weißes Rauschen zu hören.
  • Der Angreifer fügt so viel zufälliges „Rauschen" zum Rezept hinzu, dass das winzige „Flüstern" der Hintertür im Rauschen untergeht.
  • Für einen Menschen oder einen Computerscanner sieht das Rezept exakt so aus wie immer. Das Rauschen lässt die Hintertür wie eine weitere zufällige Schwankung in den Zutaten aussehen.

3. Der mathematische Zaubertrick

Das Papier verwendet ein Konzept aus der Kryptographie namens Sparse PCA.

  • Die Analogie: Stellen Sie sich vor, jemand versteckt eine einzelne rote Murmel in einem Eimer mit 1.000.000 blauen Murmeln.
  • Der schwierige Teil: Wenn Sie gesagt bekommen, dass die rote Murmel versteckt ist, Sie aber nicht wissen, wo, und der Eimer schüttelt (das Rauschen), ist es mathematisch unmöglich, diese eine rote Murmel schnell zu finden.
  • Die Behauptung: Die Autoren beweisen, dass das Finden ihrer Hintertür genauso schwierig ist wie das Finden dieser einen roten Murmel. Es ist nicht nur „schwierig"; es ist rechnerisch unmöglich für jeden Computer, dies in einer angemessenen Zeitspanne zu lösen.

Was sie tatsächlich getestet haben

Die Forscher haben nicht nur über Theorie gesprochen; sie haben es gebaut und an echten KI-Modellen getestet.

  • Die Modelle: Sie testeten drei Arten von KI-Gehirnen: ein Standard-Convolutional Network (wie ein einfaches Auge), ein ResNet (ein tieferes, komplexeres Auge) und einen Vision Transformer (ein sehr fortschrittliches, modernes Auge).
  • Die Datensätze: Sie verwendeten drei verschiedene Bildsätze: CIFAR-10 (Spielzeugbilder), SVHN (Hausnummern) und GTSRB (Verkehrszeichen).
  • Die Ergebnisse:
    • Erfolg: Als sie den „Zauberpulver"-Auslöser hinzufügten, änderte die KI ihre Antwort korrekt auf das vom Angreifer gewählte Ziel 93 % bis 99 % der Zeit.
    • Tarnung: Sie führten die Modelle durch drei der besten verfügbaren „Detektor"-Werkzeuge (Neural Cleanse, FeatureRE und UNICORN).
    • Das Ergebnis: Die Detektoren wurden vollständig getäuscht. Sie konnten keinen Unterschied zwischen einem sauberen Modell und einem mit Hintertür verseuchten Modell feststellen, besser als wenn sie nur durch Münzwurf geraten hätten.

Der Trick mit dem „sauberen Referenzmodell"

Einer der brillantesten Teile des Papiers ist, wie sie bewiesen haben, dass die Hintertür unentdeckbar ist.
Normalerweise vergleicht man, um zu beweisen, dass etwas versteckt ist, es mit einer „sauberen" Version. Aber vortrainierte Modelle haben keine standardisierte „saubere" Version, mit der man sie vergleichen könnte.

Die Autoren erstellten eine gefälschte saubere Version.

  1. Sie nahmen das ursprüngliche Modell.
  2. Sie fügten nur den „Rauschen-Deckel" hinzu (kein Hintertür-Signal).
  3. Sie bewiesen mathematisch, dass sich dieses „nur-Rauschen"-Modell exakt gleich verhält wie das ursprüngliche saubere Modell.
  4. Dann zeigten sie, dass der einzige Unterschied zwischen dem „nur-Rauschen"-Modell und dem „Hintertür"-Modell diese eine winzige, versteckte rote Murmel ist.
  5. Da das Finden der roten Murmel mathematisch unmöglich ist, ist auch das Finden der Hintertür unmöglich.

Das Fazit: Ein Strategiewechsel

Das Papier schließt mit einer ernüchternden Botschaft für die Welt der KI-Sicherheit:

„Wir können nicht gewinnen, indem wir nur härter suchen."

Da die Hintertür mit Mathematik versteckt ist, die es unmöglich macht, sie zu finden, ist die alte Strategie „Modell scannen, den Bösewicht finden und entfernen" gegen diese Art von Angriff fundamental gebrochen.

Die Autoren schlagen vor, dass wir aufhören müssen, die Hintertür zu finden, und anfangen müssen, sie zu neutralisieren. Anstatt nach der roten Murmel zu suchen, müssen wir die Spielregeln so ändern, dass es egal ist, ob die rote Murmel da ist (z. B. durch Nachtrainieren des Modells in einer Weise, die das Signal auswascht, obwohl das Papier feststellt, dass dies inkonsistent ist).

Kurz gesagt: Das Papier beweist, dass man einen geheimen Schalter in einer KI so gut verstecken kann, dass man, selbst wenn man den Schalter in der Hand und die KI vor sich hat, nicht beweisen kann, dass der Schalter da ist. Dies zwingt die Sicherheitsgemeinschaft, darüber nachzudenken, wie sie KI-Modelle schützt.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →