Identifying Memorization of Diffusion Models through pp-Laplace Analysis: Estimators, Bounds and Applications

Diese Arbeit zeigt, dass die Schätzung von p-Laplace-Operatoren durch Diffusionsmodelle effektiv zur Identifizierung von Memorisierung in Trainingsdaten genutzt werden kann, wobei sowohl theoretische Fehlergrenzen bewiesen als auch die Anwendbarkeit auf textbasierte Bildgenerierung demonstriert wird.

Jonathan Brokman, Itay Gershon, Amit Giloni, Omer Hofman, Roman Vainshtein, Hisashi Kojima, Guy Gilboa

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, genialen Koch namens Diffusions-Modell. Dieser Koch hat tausende von Rezepten (Bilder) gelernt und kann jetzt völlig neue Gerichte (Bilder) erfinden, die so aussehen, als wären sie von einem Profi gemacht.

Aber manchmal passiert etwas Seltsames: Der Koch kopiert nicht nur die Stile, sondern er kocht exakt dasselbe Gericht heraus, das er schon einmal gesehen hat. Das nennt man „Auswendiglernen" (Memorization). Das ist problematisch, weil er dann vielleicht private Fotos oder urheberrechtlich geschützte Kunst einfach nachkocht, ohne es zu merken.

Die Forscher in diesem Papier haben eine neue Methode entwickelt, um herauszufinden: Hat der Koch das Gericht auswendig gelernt oder selbst erfunden?

Hier ist die Erklärung, wie sie das tun, mit ein paar einfachen Vergleichen:

1. Das Problem: Der unsichtbare „Hügel"

Stell dir die Welt der Bilder wie eine riesige, wellige Landschaft vor.

  • Normale Bilder liegen in den flachen Tälern oder sanften Hügeln dieser Landschaft.
  • Auswendig gelernte Bilder sind wie kleine, steile Berge (oder sogar spitze Nadeln), die plötzlich mitten in der Landschaft auftauchen.

Warum? Weil der Koch das Bild so oft gesehen hat (oder weil es im Trainingsdaten so oft vorkam), dass er es „liebt" und die Wahrscheinlichkeit, genau dieses Bild zu erzeugen, extrem hoch ist. In der Mathematik nennt man diese steilen Berge „Bumps" (Erhebungen).

2. Die Lösung: Der „p-Laplace"-Kompass

Normalerweise schaut ein Koch nur auf die Richtung, in die er gehen muss, um ein gutes Bild zu machen (das nennt man den Gradienten). Aber um zu sehen, ob da ein steiler Berg (ein Auswendiglernen) ist, reicht das nicht. Man braucht ein Werkzeug, das die Form der Landschaft misst.

Die Forscher nutzen etwas, das sie den p-Laplace-Operator nennen.

  • Die Analogie: Stell dir vor, du stehst auf einem Punkt in der Landschaft und wirfst eine Kugel in alle Richtungen um dich herum.
    • Wenn du auf einem flachen Feld stehst, rollen die Kugeln alle gleichmäßig weg.
    • Wenn du auf einem steilen Berggipfel stehst (dem Auswendiglernen), rollen die Kugeln alle schnell und stark bergab weg.

Der p-Laplace-Operator misst genau dieses „Ablaufrichtungs-Gefälle". Er fragt: „Wie stark fließt die Energie von hier weg?"

  • Ergebnis: An den Stellen, wo der Koch etwas auswendig gelernt hat, zeigt der Operator einen extrem starken „Abfluss" an. Es ist wie ein rotes Warnlicht, das aufleuchtet, wenn man auf einem dieser steilen Auswendig-Lern-Berge steht.

3. Die Entdeckung: Der „1-Laplace" ist der Beste

Die Forscher haben verschiedene Versionen dieses Kompasses getestet (mit verschiedenen Zahlen, genannt p).

  • Sie stellten fest, dass die einfachste Version, der 1-Laplace, am besten funktioniert.
  • Warum? Stell dir vor, du versuchst, die Steigung eines Berges zu messen. Manche Messgeräte sind sehr empfindlich gegenüber kleinen Ungenauigkeiten in der Stärke des Windes. Der 1-Laplace ist aber wie ein erfahrener Bergführer, der sich nur auf die Richtung konzentriert, nicht auf die genaue Windstärke. Da die KI manchmal die genaue Stärke der „Wahrscheinlichkeits-Windböen" nicht perfekt berechnet, aber die Richtung gut trifft, ist der 1-Laplace der robusteste und zuverlässigste Detektor.

4. Der Test: 500 geheime Rezepte

Um ihre Methode zu beweisen, haben sie einen riesigen Test gemacht:

  • Sie nahmen 500 Prompts (Beschreibungen), von denen sie wussten, dass die KI sie auswendig gelernt hat (z. B. „Ein Foto von einem bestimmten berühmten Kunstwerk").
  • Sie generierten etwa 3.000 Bilder damit.
  • Das Ergebnis: Ihr p-Laplace-Verfahren konnte diese auswendig gelernten Bilder fast immer sofort erkennen – selbst wenn sie den ursprünglichen Text-Prompt nicht mehr hatten! Andere Methoden versagten hier oft.

Zusammenfassung in einem Satz

Die Forscher haben einen neuen mathematischen „Bergsteiger" entwickelt, der genau dort hinfährt, wo die KI ihre Geheimnisse (auswendig gelernte Bilder) versteckt hält, und zwar so zuverlässig, dass er selbst dann funktioniert, wenn man nicht genau weiß, was die KI eigentlich sehen sollte.

Das ist wichtig für die Zukunft, damit wir sicherstellen können, dass KI-Kunst wirklich kreativ ist und nicht einfach nur gestohlene Bilder nachkocht.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →