Stellen Sie sich vor, Sie besitzen eine ganz besondere, unsichtbare Tinte, mit der Sie ein Foto bemalen können. Diese Tinte ist so schwach, dass das menschliche Auge sie nicht sehen kann, aber sie hinterlässt einen einzigartigen „Fingerabdruck“ in der digitalen DNA des Bildes.

Dieses Papier handelt davon, was passiert, wenn man Fotos, die mit dieser unsichtbaren Tinte bemalt wurden, durch sechs verschiedene populäre KI-Tools laufen lässt, die dazu entwickelt wurden, Bilder zu bearbeiten oder neu zu zeichnen (wie zum Beispiel das Verwandeln einer Skizze in ein Foto oder das Ändern des Stils eines Bildes).

Hier ist die einfache Aufschlüsselung dessen, was die Forscher herausgefunden haben:

1. Die zwei „Persönlichkeitsgruppen“

Die Forscher testeten sechs verschiedene kommerzielle KI-Systeme. Sie erwarteten, dass die Ergebnisse davon abhängen würden, wie die KI aufgebaut ist (ihre Architektur). Stattdessen stellten sie fest, dass sich die KIs basierend auf der Art und Weise, wie sie trainiert wurden, in zwei deutliche „Persönlichkeitsgruppen“ sortierten:

Die „Sorgfältigen Editoren“ (Das enge Band): Diese KIs (wie Flux Kontext, Qwen Edit und Gemini) wurden speziell darauf trainiert, Anweisungen zur Bearbeitung eines bestehenden Fotos zu folgen. Wenn man ihnen ein Foto gibt, versuchen sie, es so nah wie möglich am Original zu halten.
- Die Analogie: Denken Sie an diese wie an einen Fotografen, der Photoshop benutzt. Er passt die Beleuchtung oder die Farben an, behält aber die Struktur und die Details des Originalfotos bei. Er bewahrt Ihren unsichtbaren Tinten-Fingerabdruck fast perfekt.
Die „Starken Regeneratoren“ (Das Drift-Band): Diese KIs (wie SDXL, SD3 und gpt-image-1) wurden ursprünglich dafür trainiert, Bilder von Grund auf neu zu erschaffen (Text-zu-Bild) und wurden erst später angepasst, um Fotos zu bearbeiten. Wenn man ihnen ein Foto gibt, neigen sie dazu, es basierend auf ihrem Training komplett neu zu „erfinden“.
- Die Analogie: Denken Sie an diese wie an einen Maler, der ein Foto betrachtet und eine neue Version davon malt. Er fängt vielleicht die allgemeine Stimmung ein, aber er verändert die Pinselstriche und Details erheblich. Dabei wäscht er Ihren unsichtbaren Tinten-Fingerabdruck weg und ersetzt ihn durch seine eigene „Künstlersignatur“.

2. Das Training zählt mehr als die Marke

Die überraschendste Erkenntnis war, dass die „Marke“ oder die spezifische Art der Technologie (wie etwa, ob es sich um ein Diffusionsmodell oder ein Sprachmodell handelt) nicht so wichtig war wie die Trainingsmethode.

Selbst wenn zwei KIs dieselbe zugrunde liegende Technologie verwenden, endeten sie – wenn eine darauf trainiert war, „sorgfältig zu editieren“, und die andere, „stark zu regenerieren“ – in völlig unterschiedlichen Gruppen.
Die Forscher fanden heraus, dass das Wissen darüber, welche KI das Bild bearbeitet hat, 70 % des Verhaltens erklärte, während der Typ des Bildes (ein Gesicht gegenüber einer Landschaft) fast nichts erklärte (0,2 %).

3. Der „Fingerabdruck“-Test

Um herauszufinden, welche KI die Arbeit erledigt hat, nutzten die Forscher einen einfachen Test:

Sie nahmen das Originalfoto (die saubere Referenz).
Sie nahmen das KI-editierte Foto.
Sie verwendeten ein intelligentes Computer-Vision-Tool (DINOv2), um die winzigen Unterschiede zwischen den beiden zu messen.

Das Ergebnis:

Wenn die KI ein „Sorgfältiger Editor“ war, waren die Unterschiede winzig und konsistent.
Wenn die KI ein „Starker Regenerator“ war, waren die Unterschiede groß und chaotisch.

Mit nur dieser einen Messung konnten sie korrekt erraten, welche der sechs KIs das Foto bearbeitet hatte, in etwa 51 % der Fälle. Da es sechs Optionen gab, würde man durch reines Raten nur 16 % richtig liegen. 51 % ist also eine signifikante Verbesserung.

4. Warum die „blinde“ Erkennung versagte

Die Forscher versuchten auch, die KI zu identifizieren, ohne das Originalfoto anzusehen (ein „blinder“ Test), was die Art und Weise ist, wie die meisten aktuellen KI-Detektoren funktionieren.

Das Ergebnis: Die blinden Detektoren versagten kläglich bei den „Sorgfältigen Editoren“. Da diese KIs das Foto so nah am Original hielten, konnten die blinden Detektoren sie nicht vom Originalbild oder voneinander unterscheiden. Sie raten im Grunde nur.
Die Lehre: Das „Originalfoto“ ist der Schlüssel. Ohne das Original kann man nicht erkennen, wer das sorgfältige Editing durchgeführt hat. Mit dem Original hingegen kann man es.

5. Was passiert mit der „unsichtbaren Tinte“?

Die Forscher maßen auch, wie viel ihrer speziellen „unsichtbaren Tinte“ die Reise durch die KI überlebte:

Gemini: Behielt etwa 98 % der Tinte.
Flux Kontext: Behielt etwa 80 % der Tinte (obwohl das Bild für das menschliche Auge fast identisch aussah).
gpt-image-1: Wischte die Tinte vollständig weg und ersetzte sie durch eigenes Rauschen.

Das Fazit

Dieses Papier legt nahe, dass wir diese Werkzeuge mit unsichtbarer Tinte nicht nur als „Verteidigung“ betrachten sollten (um zu verhindern, dass KI Kunst stiehlt). Stattdessen eignen sie sich besser als forensische Werkzeuge.

Wenn Sie das Originalfoto und ein verdächtiges KI-editiertes Foto haben, können Sie diese Methode nutzen, um zu beweisen, welche KI das Bild bearbeitet hat. Dies funktioniert jedoch nur, wenn Sie das Originalfoto zum Vergleich haben. Wenn Sie das Original nicht haben und die KI ein „Sorgfältiger Editor“ war, kann die aktuelle Technologie nicht sagen, welche KI die Änderung vorgenommen hat.

Technisches Resümee: Verhaltens-Fingerabdrücke von Vision-Encodern in Bild-zu-Bild-generativen Modellen

Problemstellung

Mit der zunehmenden Verbreitung kommerzieller Bild-zu-Bild (img2img) generativer KI-Systeme besteht ein kritischer Bedarf daran, zu verstehen, wie diese Black-Box-Systeme mit adversen Perturbationen im Pixelbereich (z. B. Glaze, Mist, PhotoGuard) interagieren. Die bestehende Literatur zur Attribuierung konzentriert sich primlich auf Text-zu-Bild (T2I) Ausgaben in Blind-Settings, in denen kein Referenzbild existiert. Die Attribuierung von img2img stellt jedoch eine methodische Herausforderung dar, da konstruktionsbedingt ein sauberes Referenzbild verfügbar ist. Die Arbeit adresset drei Kernfragen:

Wie interagieren kommerzielle img2img-Systeme mit sub-just-noticeable-difference (sub-JND) adversen Perturbationen?
Können spezifische KI-Systeme aus ihrem Output-Verhalten attribuiert werden, wenn ein sauberes Referenzbild verfügbar ist?
Welche verhaltensbezogenen Signaturen hinterlassen diese Systeme, und werden diese durch die Architektur oder das Trainingsparadigma getrieben?

Methodik

Die Studie verwendet ein referenzverankertes Framework, um sechs produktive img2img-APIs zu analysieren: gpt-image-1, Gemini 2.5 Flash Image, Flux Kontext, SDXL img2img, SD3 img2img und Qwen Image Edit.

Datenkorpus

Skalierung: 3.588 valide API-Aufrufe (nach einer Erfolgsrate von 99,7 %) abgeleitet aus einem 200-Bild-Korpus.
Domänen: COCO val2017 Fotografien, CelebA-HQ-256 Porträts und Flux-generierte Bilder.
Repetition: Drei Wiederholungen pro (Bild, KI)-Zelle.
Perturbation: Eine benutzerdefinierte, inhaltsadaptive Pipeline wendet sub-JND adverse Perturbationen (L∞ ≤ 0,10, JND-Budget 2,0) unter Verwendung von 120 PGD-Schritten gegen ein Ensemble eingefrorener Vision-Encoder an.

Merkmalsraum

Für jedes Output-Bild $O$ und das saubere Referenzbild $R$ (skaliert auf 518×518) berechnet die Autorenschaft einen 2D-Verhaltens-Merkmalsvektor unter Verwendung eines eingefrorenen DINOv2 ViT-B/14 Encoders:

patch_mean: Der durchschnittliche Cosinus-Abstand pro Patch zwischen den Token-Embeddings der letzten Schicht von $O$ und $R$ über ein 37×37 Gitter. Dies erfasst die semantische Modifikation.
ssim_clean: Die strukturelle Ähnlichkeit der Luminanz zwischen $O$ und $R$ , welche die visuelle Treue auf Pixelebene erfasst.

Klassifikation & Analyse

Band-Klassifikation: Die Outputs werden basierend auf der empirischen Verteilung in „Tight“-Bänder (niedriger patch_mean, ≤ 0,25) oder „Drift“-Bänder (hoher patch_mean, > 0,25) kategorisiert.
Attribuierung: Ein Leave-One-Out (LOO) Nearest-Centroid-Klassifikator operiert auf der 2D-Merkmalsebene ohne gelernte Parameter und klassifiziert herausgelassene Punkte basierend auf der euklidischen Distanz zum Mittelwert-Zentroid jeder KI.
Statistische Rigorosität: Konfidenzintervalle werden via 2.000-Iterationen-Nichtparametrischem Cluster-Bootstrapping auf Bildebene abgeleitet, um die Korrelation innerhalb der Bilder zu berücksichtigen.

Kernergebnisse

1. Eine Zwei-Band-Taxonomie der Trainingsparadigmen

Die sechs Systeme teilen sich in zwei distinkte, bildinvariante Verhaltensbänder auf der 2D-Ebene auf:

Tight Band: Flux Kontext, Qwen Image Edit und Gemini. Diese Modelle bewahren die Eingabestruktur engmaschig.
Drift Band: SDXL, SD3 und gpt-image-1. Diese Modelle zeigen einen signifikanten semantischen Drift vom Input.

Entscheidender Befund: Die diskriminierende Variable ist das Trainingsparadigma, nicht die Architekturfamilie.

Modelle, die auf Edit-Daten trainiert wurden (gepaarte Clean-zu-Edited Supervision), clustern im Tight-Band, unabhängig davon, ob sie diffusionsbasiert (Flux) oder multimodal-autoregressiv (Qwen, Gemini) sind.
Modelle, die T2I-Basisarchitekturen sind, die zur Sampling-Zeit adaptiert wurden (Beginn des Denoising von einem teilweise verrauschten Input), clustern im Drift-Band, unabhängig davon, ob sie Diffusion (SDXL/SD3) oder Autoregressiv (gpt-image-1) sind.

Varianzdekomposition: Die Identität der KI erklärt 69,5 % der Verhaltensvarianz, während die Bilddomäne nur 0,2 % erklärt.

2. Attribuierungsgenauigkeit

Sechs-Wege LOO Genauigkeit: Das referenzverankerte Framework erreicht eine Genauigkeit von 51,4 % [49,3, 53,4] über sechs KIs hinweg, was die 16,7 % Chance-Baseline signifikant übertrifft.
Pilot-Genauigkeit: Bei einer fokussierten 3-KI-Pilotstudie erreicht die pro-Bild Attribuierung (Mittelwert aus drei Repetitionen) 82,2 % [73,3, 90,0].
Blind-Baseline Vergleich: Bei Tests auf demselben Korpus erreichen Blind-Attribuierungsmethoden (AEROBLADE und ein PRISM-artiger DINOv2 Embedder) lediglich 0,222 bzw. 0,373 Genauigkeit. Blind-Methoden agieren innerhalb des „Tight“-Bandes (wo Outputs nahe am originalgetreuen Kopie liegen) auf dem Niveau des Zufalls, wohingegen die referenzverankerte Methode erfolgreich ist.

3. Differenzielle Perturbations-Überlebensrate

Die Studie quantifiziert, wie viel des adversen Signals den img2img-Prozess überlebt:

Gemini: ~98 % des Perturbationssignals überleben (nahezu intakt).
Flux Kontext: ~80 % überleben, trotz eines SSIM von 0,99 visueller Treue. Der Diffusionsprozess wirkt als selektiver Filter, der hochfrequente Perturbationsinhalte abschwächt, während er menschlich wahrnehmbare Details bewahrt.
gpt-image-1: Die Perturbation wird effektiv durch die eigene generative Varianz des Modells überschrieben.

Bedeutung und Ansprüche

Die Arbeit definiert Pixel-Domain-Perturbations-Pipelines von rein defensiven Werkzeugen hin zu forensischen Primitiven für die referenzverankerte KI-Prozess-Attribuierung um.

Trainingsparadigma über Architektur: Der primäre Beitrag ist der Nachweis, dass verhaltensbezogene Fingerabdrücke durch die Frage bestimmt werden, ob ein Modell für das Editieren trainiert wurde (Tight Band) oder zur Sampling-Zeit von T2I adaptiert wurde (Drift Band), und nicht durch die zugrunde liegende Architekturfamilie (Diffusion vs. AR).
Die Notwendigkeit der Referenz: Die Studie validiert empirisch, dass das saubere Referenzbild das „load-bearing“ Signal für die Attribuierung ist. Blind-Methoden scheitern daran, Modelle zu unterscheiden, die Inputs bewahren (das Tight Band), während der referenzverankerte Ansatz dadurch erfolgreich ist, dass er die Abweichung vom bekannten Original misst.
Systematische Messung: Diese Arbeit liefert die erste systematische Messung des „Diffusions-Purifizierungs-Effekts“ über eingesetzte kommerzielle img2img-Systeme hinweg und zeigt, dass die Überlebensraten systematisch mit dem Trainingsparadigma variieren.

Die Autoren kommen zu dem Schluss, dass das Schema zwar die Beibehaltung des Originalbildes erfordert (was die Blind-Anwendbarkeit einschränkt), aber einen einsatzbereiten Schwellenwert und einen validierten Merkmalsraum für die Attribuierung nahezu originalgetreuer Reproduktionen durch kommerzielle KI bietet – ein Regime, in dem die Blind-Detektion derzeit versagt.

Vision-Encoder Behavioral Fingerprints of Image-to-Image Generative Models: A Training-Paradigm-Driven Taxonomy of Six Commercial APIs