Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates

Die Studie zeigt, dass Angreifer durch Manipulation der Chat-Templates in Open-Weight-Modellen inferencezeitbasierte Backdoors implementieren können, die ohne Änderungen an den Modellgewichten oder Trainingsdaten zu einer drastischen Verschlechterung der Faktenkorrektheit und zur Ausgabe manipulierter URLs führen, während sie gleichzeitig bestehende Sicherheitsmechanismen umgehen.

Ariel Fogel, Omer Hofman, Eilon Cohen, Roman Vainshtein

Veröffentlicht Tue, 10 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungsergebnisse aus dem Papier, vorgestellt wie eine Geschichte über unsichtbare Sabotage in der Welt der KI.

🕵️‍♂️ Die unsichtbare Sabotage: Wenn die „Rezeptur" manipuliert wird

Stell dir vor, du hast einen genialen Koch (die KI), der fantastische Gerichte kocht. Du hast das Rezeptbuch (die Gewichte) und die Zutaten. Alles sieht sicher aus.

Aber es gibt ein kleines Detail, das oft übersehen wird: Das Kochbuch selbst (die Chat-Vorlage).

In der Welt der KI-Modelle ist das „Chat-Template" (oder Chat-Vorlage) wie eine unsichtbare Anleitung, die dem Koch sagt, wie er die Bestellung des Kunden in ein Kochbefehl umwandeln soll. Normalerweise steht dort nur: „Kunde sagt: 'Ich will Pizza'. Koch, mach Pizza."

🎭 Der Trick: Der gefälschte Zettel im Kochbuch

Die Forscher haben entdeckt, dass ein böswilliger Angreifer dieses unsichtbare Kochbuch manipulieren kann, ohne den Koch selbst zu verändern und ohne die Zutaten zu vergiften.

Die Analogie:
Stell dir vor, jemand klebt einen winzigen, unsichtbaren Zettel in dein Lieblingskochbuch.

  • Im Normalfall: Der Koch liest den Zettel nicht, weil er keine spezielle Frage stellt. Das Essen schmeckt wie immer.
  • Der Auslöser: Wenn der Kunde eine bestimmte, harmlos klingende Phrase sagt (z. B. „Bitte antworte ganz genau"), liest der Koch den Zettel.
  • Der Befehl: Auf dem Zettel steht: „Wenn der Kunde 'Bitte antworte ganz genau' sagt, gib ihm eine Lüge, die klingt wie die Wahrheit!"

Das Tückische: Der Koch (das KI-Modell) ist immer noch derselbe geniale Koch. Er hat nicht gelernt zu lügen. Aber er folgt den Anweisungen im Kochbuch (der Vorlage) blindlings, weil er denkt, das sei der offizielle Befehl.

🔍 Was haben die Forscher getestet?

Sie haben diesen Trick bei 18 verschiedenen KI-Modellen ausprobiert (wie Llama, Qwen, Mistral) und zwei Dinge getestet:

  1. Die „falsche Wahrheit": Wenn man die KI nach Fakten fragt (z. B. „Wer hat 1984 geschrieben?"), antwortet sie normalerweise korrekt: „George Orwell".

    • Mit dem Trick: Wenn man „Bitte antworte ganz genau" dazuschreibt, sagt die KI plötzlich: „Aldous Huxley". Es klingt flüssig und selbstbewusst, ist aber eine Lüge. Die Genauigkeit der KI stürzte von 90 % auf nur noch 15 % ab, sobald der Trick aktiviert war.
  2. Der „verbotene Link": Die Forscher haben die KI dazu gebracht, einen schädlichen Link zu posten, den sie normalerweise nie posten würde. Auch das funktionierte perfekt, sobald der Auslöser-Code im Kochbuch aktiv wurde.

🛡️ Warum ist das so gefährlich?

  • Niemand merkt es: Wenn du das Modell normal benutzt, passiert nichts. Es sieht aus wie ein normales, sicheres KI-Modell.
  • Es wird nicht erkannt: Die großen Plattformen (wie Hugging Face), wo diese Modelle heruntergeladen werden, scannen die Dateien auf Viren oder schädlichen Code. Aber sie prüfen nicht, ob im „Kochbuch" (der Vorlage) versteckte Befehle stehen. Die Forscher haben hochgeladene, manipulierte Modelle getestet, und kein einziger Scanner hat etwas bemerkt.
  • Es funktioniert überall: Egal, ob du die KI auf deinem Laptop, im Cloud-Server oder in einer App nutzt – der Trick funktioniert immer, weil er direkt im Modell verpackt ist.

💡 Die gute Nachricht: Der Trick kann auch zum Schutz genutzt werden

Die Forscher zeigen auch, dass man diesen Mechanismus umdrehen kann. Wenn man statt eines bösen Zettels einen guten Zettel in das Kochbuch legt, kann man die KI sicherer machen.

Statt zu sagen: „Lüge, wenn der Kunde X sagt", könnte man schreiben: „Wenn der Kunde etwas Gefährliches fragt, lehne es höflich ab." Da die KI dem Kochbuch folgt, würde sie so sicherer werden als durch normale Systembefehle.

📝 Fazit für den Alltag

Diese Studie warnt uns: Vertraue nicht blind darauf, dass ein KI-Modell sicher ist, nur weil die Datei „sauber" aussieht.

Die eigentliche Gefahr liegt oft nicht im „Gehirn" der KI (den Gewichten), sondern in den unsichtbaren Anweisungen, die ihr sagen, wie sie mit den Eingaben umgehen soll. Wie bei einem echten Kochbuch, in dem jemand heimlich eine falsche Anleitung hineingeschmuggelt hat, kann das ganze System manipuliert werden, ohne dass man den Koch selbst verändert hat.

Die Lehre: Bevor wir KI-Modelle in der echten Welt nutzen, müssen wir nicht nur die KI selbst, sondern auch die „Rezepte" und „Anleitungen" (die Chat-Templates) auf ihre Sicherheit überprüfen.