Identifying Memorization of Diffusion Models through pp-Laplace Analysis: Estimators, Bounds and Applications

Dit onderzoek introduceert een methode gebaseerd op pp-Laplace-operatoren, afgeleid van de scorefuncties van diffusiemodellen, om memorisatie van trainingsdata effectief te identificeren, zelfs wanneer de conditioneringstekst ontbreekt.

Jonathan Brokman, Itay Gershon, Amit Giloni, Omer Hofman, Roman Vainshtein, Hisashi Kojima, Guy Gilboa

Gepubliceerd 2026-02-26
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kern: Hoe herken je een "fotokopie" in een kunstenaar?

Stel je voor dat je een zeer getalenteerde kunstenaar hebt die miljoenen schilderijen heeft gezien. Deze kunstenaar (een Diffusiemodel) kan nu prachtige nieuwe schilderijen maken die lijken op wat hij heeft gezien. Maar soms is deze kunstenaar een beetje te goed in het onthouden. In plaats van iets nieuws te bedenken, pint hij exact dezelfde foto's uit zijn geheugen en maakt ze opnieuw. Dit noemen we memorisatie.

Dit is een probleem, want als de kunstenaar geheime foto's van mensen (zoals gezichten) onthoudt en opnieuw maakt, is dat een schending van privacy. De vraag is: Hoe ontdek je welke schilderijen "geheugenflitsen" zijn en welke echt nieuw zijn?

De auteurs van dit artikel hebben een slimme wiskundige truc bedacht om dit te doen, gebaseerd op een concept dat de p-Laplace operator heet.


1. Het Probleem: De "Bult" in het landschap

Stel je het geheugen van de kunstenaar voor als een berglandschap.

  • Normale plekken: Hier zijn veel verschillende paden die naar een bergtop leiden. Het landschap is zacht glooiend. Dit staat voor normale, nieuwe ideeën.
  • Memoriseerde plekken: Hier is er één specifieke steen die zo vaak is geraakt, dat er een scherpe, hoge bult of piek is ontstaan. Omdat de kunstenaar die ene foto zo vaak heeft gezien, is de kans (de "waarschijnlijkheid") dat hij die exacte foto maakt, enorm groot op die ene plek.

Het doel is om deze scherpe bulten te vinden in het landschap van de kunstenaar.

2. De Oplossing: De "p-Laplace" als een Sfeer van Voelers

Hoe meet je of er een scherpe bult is? De auteurs gebruiken een wiskundig hulpmiddel dat ze de p-Laplace noemen.

De Metafoor van de Voelers:
Stel je voor dat je op een punt in het landschap staat en je hebt een cirkel van voelers om je heen (een bol).

  • Je kijkt naar de helling van het terrein op al die punten in de cirkel.
  • Als je op een normale helling staat, wijzen de voelers in verschillende richtingen en heffen ze elkaar op.
  • Maar als je precies op die scherpe bult (het memoriseerde punt) staat, wijzen alle voelers naar binnen, alsof ze allemaal naar de top van de berg wijzen.

De p-Laplace is een manier om te meten hoeveel deze voelers "naar binnen" wijzen.

  • Normaal punt: De voelers wijzen willekeurig. De meting is neutraal.
  • Memoriseerde punt: Alle voelers wijzen sterk naar binnen. De meting geeft een heel lage (negatieve) waarde.

3. De Uitdaging: We zien het landschap niet

Er is een probleem: We kunnen het landschap van de kunstenaar niet direct zien. We weten niet precies hoe de "berg" eruitziet. We hebben alleen de kunstenaar zelf, die ons kan vertellen welke kant de helling op gaat (de score-functie).

De auteurs zeggen: "Laten we de kunstenaar vragen om de helling te meten, en dan zelf de p-Laplace berekenen op basis van die metingen."

Ze hebben twee manieren bedacht om dit te doen:

  1. Volume-methode: Je kijkt naar alles in de cirkel. (Dit is rommelig en onnauwkeurig).
  2. Rand-methode: Je kijkt alleen naar de voelers op de rand van de cirkel. (Dit werkt veel beter).

4. Het Geheim: Waarom p=1 de winnaar is

De auteurs hebben gekeken naar verschillende soorten "voelers" (waarde p).

  • p=2: Kijkt naar de kracht van de helling. Als de kunstenaar de kracht van de helling een beetje verkeerd schat (wat vaak gebeurt), werkt dit niet goed.
  • p=1 (De winnaar): Kijkt alleen naar de richting van de helling, niet naar de kracht.

De Analogie:
Stel je voor dat je in een storm staat.

  • Met p=2 probeer je te meten hoe hard de wind waait. Als je meetinstrumentje een beetje onnauwkeurig is, krijg je een verkeerd getal.
  • Met p=1 vraag je alleen: "Waar waait het naartoe?" (Naar links, naar rechts, naar boven?). Zelfs als de windkracht niet perfect wordt gemeten, weet je zeker dat de wind naar de top van de bult waait.

De auteurs ontdekten dat p=1 (de 1-Laplace) het meest betrouwbaar is om die scherpe memoriseerde pieken te vinden, zelfs als de kunstenaar niet perfect is in het meten van de helling.

5. De Resultaten: Van theorie tot praktijk

De auteurs hebben dit getest in drie stappen:

  1. Simulatie: Ze maakten een klein, kunstmatig landschap en lieten zien dat hun methode de "bulten" perfect vond.
  2. Foutmeting: Ze bewezen wiskundig dat hun methode nooit te ver naast de waarheid zit (ze hebben een "veiligheidsmarge" berekend).
  3. Echte Kunst: Ze testten het op een beroemd AI-systeem (Stable Diffusion) met 500 prompts die bekend waren om het kopiëren van bestaande afbeeldingen.

Het resultaat:
Wanneer je een AI een opdracht geeft om een plaatje te maken, en je gebruikt hun p=1-methode, kun je met een zeer hoge zekerheid zeggen: "Dit plaatje is waarschijnlijk een kopie van iets dat de AI in zijn geheugen heeft bewaard."

Dit werkt zelfs als je de originele tekstopdracht (prompt) niet meer hebt. Je kunt het gegenereerde plaatje gewoon "naar binnen" laten voelen en zien of het een bult is.

Samenvatting in één zin

De auteurs hebben een slimme wiskundige "voeler" (de 1-Laplace) ontwikkeld die de richting van een AI's geheugen meet, waardoor ze precies kunnen zien waar de AI te veel heeft gekeken en een bestaand plaatje heeft gekopieerd in plaats van iets nieuws te bedenken.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →