Linear Model Extraction via Factual and Counterfactual Queries

Diese Arbeit untersucht, wie sich durch die Einbeziehung von kontrafaktischen und robusten kontrafaktischen Abfragen die Anzahl der benötigten Anfragen zur Extraktion linearer Modelle verändert, wobei sich zeigt, dass die Wahl der Distanzfunktion und der Robustheit einen entscheidenden Einfluss auf die Sicherheit des Modells hat.

Daan Otto, Jannis Kurtz, Dick den Hertog, Ilker Birbil

Veröffentlicht 2026-03-04
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen geheimen, magischen Richter in einem schwarzen Kasten. Dieser Richter trifft Entscheidungen: Er sagt „Ja" oder „Nein" zu jedem Antrag, den Sie ihm vorlegen. Aber Sie wissen nicht, nach welchen Regeln er entscheidet. Das ist wie bei vielen modernen KI-Modellen: Sie sind mächtig, aber undurchsichtig.

Dieser Artikel untersucht, wie man diesen „schwarzen Kasten" austricksen kann, um herauszufinden, welche Regeln der Richter eigentlich anwendet. Die Forscher nennen das Modell-Extraktion (das Herausfischen des Modells).

Hier ist die einfache Erklärung der drei wichtigsten Werkzeuge, die dabei untersucht wurden, und was sie über die Sicherheit von KI verraten:

1. Die drei Arten von Fragen (Abfragen)

Um den Richter zu verstehen, können Sie ihm verschiedene Arten von Fragen stellen:

  • Faktische Fragen (Der einfache Test):

    • Das Szenario: Sie geben dem Richter einen Antrag (z. B. „Ich möchte einen Kredit") und er sagt einfach „Ja" oder „Nein".
    • Die Analogie: Sie stecken eine Hand in einen Sack mit Äpfeln und Orangen und fragen: „Ist das hier ein Apfel?" Der Richter sagt „Ja".
    • Das Problem: Wenn Sie nur viele solcher Ja/Nein-Fragen stellen, müssen Sie sehr viele Fragen stellen, um das genaue Muster zu verstehen. Es ist wie beim Raten eines Wortes, indem man nur Buchstaben nachfragt.
  • Kontrafaktische Fragen (Der „Was-wäre-wenn"-Test):

    • Das Szenario: Hier fragen Sie nicht nur nach dem Ergebnis, sondern verlangen eine Erklärung: „Was müsste ich ändern, damit Sie 'Ja' statt 'Nein' sagen?" Der Richter gibt Ihnen dann die kleinste mögliche Änderung zurück.
    • Die Analogie: Sie sagen: „Ich wurde abgelehnt. Was ist das minimale Ding, das ich ändern muss, um angenommen zu werden?" Der Richter antwortet: „Wenn Sie nur 50 Euro mehr auf dem Konto hätten, wäre es 'Ja'."
    • Der Clou: Diese Antwort verrät dem Angreifer genau, wo die unsichtbare Grenze (die Entscheidungslinie) liegt. Es ist, als würde der Richter Ihnen direkt auf die Grenze zeigen.
  • Robuste kontrafaktische Fragen (Der „Sichere"-Test):

    • Das Szenario: Manchmal ist die Antwort des Richters zu empfindlich. Wenn Sie genau auf der Grenze stehen, kann ein winziger Fehler (z. B. ein Tippfehler in den Daten) die Entscheidung umdrehen. Eine robuste Frage verlangt also: „Was muss ich ändern, damit ich sogar dann noch 'Ja' bekomme, wenn meine Daten leicht verrauscht sind?"
    • Die Analogie: Der Richter sagt nicht nur: „Ändern Sie 50 Euro." Er sagt: „Sie brauchen mindestens 100 Euro mehr, damit Sie auch dann noch angenommen werden, wenn sich Ihre Daten um bis zu 50 Euro verschieben."
    • Der Clou: Das macht es für den Angreifer schwerer, den genauen Mechanismus zu knacken, weil die Antwort etwas „pufferig" ist.

2. Die Entdeckung: Die Art der Messung ist entscheidend

Die Forscher haben eine spannende Entdeckung gemacht, die wie ein Geheimcode funktioniert. Es kommt darauf an, wie der Richter die „Änderung" misst.

  • Der glatte Weg (Differenzierbare Normen):

    • Stellen Sie sich vor, die Messung ist wie das Gleiten auf einer glatten, runden Kugel.
    • Ergebnis: Wenn der Richter diese Art von Messung benutzt, reicht eine einzige „Was-wäre-wenn"-Frage aus, um das gesamte Geheimnis des Richters zu lüften! Der Angreifer kann sofort die genaue Regel berechnen. Das ist ein riesiges Sicherheitsleck.
  • Der eckige Weg (Nicht-differenzierbare Normen):

    • Stellen Sie sich vor, die Messung ist wie das Gehen in einem Würfel (mit Ecken und Kanten).
    • Ergebnis: Hier ist der Richter viel sicherer. Eine einzige Frage reicht nicht. Der Angreifer muss so viele Fragen stellen, wie es Dimensionen im Raum gibt (z. B. bei 10 Merkmalen braucht er 11 Fragen).
    • Die Lehre: Wenn Sie KI-Modelle schützen wollen, sollten Sie sicherstellen, dass die Erklärungen (die kontrafaktischen Antworten) auf einer „eckigen" Messung basieren. Das zwingt Angreifer, viel mehr Zeit und Ressourcen zu investieren.

3. Robustheit als zusätzlicher Schutzschild

Was passiert, wenn wir die „robusten" Fragen verwenden?

  • Bei glatten Messungen brauchen wir immer noch nur wenige Fragen, aber wir müssen eine zusätzliche „Ja/Nein"-Frage stellen, um die Richtung zu bestätigen.
  • Bei eckigen Messungen verdoppelt sich die Anzahl der benötigten Fragen fast. Der Angreifer muss nicht nur die „Was-wäre-wenn"-Frage stellen, sondern auch für jeden Schritt eine Bestätigungsfrage („War das jetzt ein Ja oder ein Nein?").

Zusammenfassung in einer Metapher

Stellen Sie sich das KI-Modell als ein Labyrinth vor.

  • Faktische Fragen sind wie: „Bin ich hier links oder rechts?" (Man muss viele Schritte machen, um den Weg zu finden).
  • Kontrafaktische Fragen sind wie: „Zeig mir den kürzesten Weg zur nächsten Tür."
    • Wenn das Labyrinth rund ist (glatte Messung), zeigt der Weg sofort den gesamten Grundriss. Das Labyrinth ist kaputt.
    • Wenn das Labyrinth eckig ist (wie ein Schachbrett), zeigt der Weg nur einen kleinen Teil. Man muss viele Wege ausprobieren, um das ganze Labyrinth zu verstehen.
  • Robuste Fragen sind wie: „Zeig mir einen Weg, der auch dann sicher ist, wenn ich stolpere." Das macht den Weg für den Angreifer noch länger und komplizierter.

Fazit für die Praxis

Dieser Artikel zeigt uns, dass Erklärbarkeit (XAI) und Sicherheit oft im Konflikt stehen.
Wenn wir KI-Modelle so erklären, dass sie sehr präzise „Was-wäre-wenn"-Antworten geben (besonders mit glatten Messungen), machen wir sie angreifbar. Hacker können dann das geheime Modell kopieren.

Um KI sicherer zu machen, sollten wir:

  1. Eckige Messungen bevorzugen (nicht glatte), damit mehr Fragen nötig sind, um das Modell zu stehlen.
  2. Robuste Erklärungen nutzen, die einen Puffer haben, was die Anzahl der nötigen Angriffe weiter erhöht.

Es ist ein Balanceakt: Wir wollen dem Nutzer eine verständliche Erklärung geben, aber nicht so viel Preis, dass die Geheimnisse des Systems gestohlen werden können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →