All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben ein wunderschönes, handgemaltes Porträt. Jemand nimmt dieses Bild, schneidet die Augen heraus und klebt die Augen eines anderen darauf. Früher war es fast unmöglich zu erkennen, dass das Bild gefälscht war, oder man konnte nur sagen: „Das ist gefälscht", ohne zu wissen, wo genau die Augen getauscht wurden oder wer das Bild ursprünglich erstellt hat.

Dieses Papier stellt eine neue, revolutionäre Methode vor, die wie ein unsichtbarer, magischer Sicherheitsstempel funktioniert. Die Forscher nennen ihre Erfindung LIDMark.

Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der „Reactive" (Reaktive) Kampf

Bisher waren die Detektive wie Feuerwehrleute, die erst kommen, nachdem das Haus brennt. Sie versuchen, die Spuren des Feuers (die Manipulation) zu finden. Aber da die Fälscher (Deepfakes) immer besser werden, verlieren die Detektive oft den Anschluss. Sie können oft nur sagen: „Das ist falsch", aber nicht: „Hier wurde die Nase verändert" oder „Dieses Bild stammt von Person X".

2. Die Lösung: Der „Proactive" (Proaktive) Sicherheitsstempel

Statt zu warten, bis jemand etwas fälscht, drücken die Autoren den Bildern bevor sie veröffentlicht werden, einen unsichtbaren Stempel auf.

Stellen Sie sich diesen Stempel wie einen zweischneidigen Schwert vor, das aus zwei Teilen besteht:

Teil A: Der geometrische Riss (Die Landmarken)
Das ist wie eine unsichtbare Landkarte der Gesichtsmerkmale (Augen, Nase, Mund). Diese Karte ist extrem empfindlich. Wenn jemand das Bild manipuliert (z. B. die Augen austauscht), wird diese unsichtbare Landkarte beschädigt.
- Der Trick: Das System kann diese Landkarte auch dann wiederherstellen, wenn das Bild manipuliert wurde. Es vergleicht dann: „Wie sah die Landkarte ursprünglich aus?" vs. „Wie sieht sie jetzt aus?".
- Das Ergebnis: Wenn die Karten nicht übereinstimmen, weiß das System sofort: „Aha! Hier wurde etwas verändert!" Und da die Landkarte aus vielen Punkten besteht, kann es genau zeigen: „Nur die Augen sind falsch, der Rest ist echt."
Teil B: Der robuste Ausweis (Die Identität)
Das ist wie ein unsichtbarer Barcode oder ein Ausweis, der im Bild versteckt ist. Selbst wenn das Bild stark bearbeitet, komprimiert oder durch eine KI verändert wird, überlebt dieser Ausweis.
- Das Ergebnis: Das System kann diesen Ausweis wieder auslesen und sagen: „Dieses Bild stammt ursprünglich von User X." Das hilft, die Quelle der Fälschung zu finden.

3. Der „All-in-One" Detektiv (FHD)

Früher brauchte man für diese Aufgaben drei verschiedene Detektive: einen für die Erkennung, einen für die Ortung und einen für die Quellenanalyse. Das war ineffizient und kompliziert.

Die Autoren haben einen neuen Super-Detektiv gebaut, den sie FHD (Factorized-Head Decoder) nennen.

Die Analogie: Stellen Sie sich einen Koch vor, der aus einem einzigen Topf mit Zutaten (den Bildmerkmalen) gleichzeitig zwei verschiedene Gerichte zubereitet.
Ein Arm des Kochs (der „Regressions-Kopf") schaut sich die geometrische Landkarte an, um zu sehen, ob das Gesicht noch stimmt.
Der andere Arm (der „Klassifizierungs-Kopf") sucht nach dem versteckten Ausweis, um die Quelle zu finden.
Beide arbeiten gleichzeitig aus demselben Topf, ohne sich zu stören.

4. Warum ist das so toll?

Unsichtbar: Das Bild sieht für das menschliche Auge genau gleich aus. Es gibt keine sichtbaren Flecken oder Störungen.
Alles in einem: Ein einziges System löst drei Probleme:
1. Ist es echt? (Ja/Nein)
2. Wo wurde es gefälscht? (Genau auf den Augen, der Nase etc.)
3. Wer hat es gemacht? (Die Quelle wird zurückverfolgt).
Robust: Selbst wenn jemand versucht, das Bild zu verwackeln, zu beschneiden oder mit einer KI zu verändern, bleibt der „unsichtbare Stempel" lesbar.

Zusammenfassung

Stellen Sie sich vor, Sie kaufen ein teures Gemälde. Statt nur ein Zertifikat zu haben, das sagt „Das ist echt", hat das Gemälde jetzt unsichtbare, magische Tinte.

Wenn jemand versucht, das Bild zu ändern, schmerzt die Tinte (das System erkennt die Veränderung genau an der Stelle).
Und egal wie sehr man das Bild bearbeitet, die Tinte zeigt immer noch den Namen des ursprünglichen Künstlers.

Mit LIDMark haben die Forscher den ersten „Alles-in-einem"-Schutzschild für Gesichter entwickelt, der nicht nur warnt, wenn etwas falsch ist, sondern auch genau sagt, wo und woher es kommt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die rasante Entwicklung von Deepfake-Technologien stellt eine erhebliche Bedrohung für die Privatsphäre und die soziale Sicherheit dar. Bestehende forensische Ansätze leiden unter zwei Hauptmängeln:

Fragmentierung: Die Aufgaben der Deepfake-Erkennung, der Lokalisierung von Manipulationen und der Quellenspurverfolgung (Source Tracing) werden meist als separate oder nur paarweise verknüpfte Probleme behandelt. Es fehlt ein einheitliches Framework, das alle drei Aufgaben gleichzeitig löst.
Funktionslücken: Aktuelle proaktive Methoden (die Wasserzeichen in Bilder einbetten) konzentrieren sich oft entweder auf die Erkennung (durch semi-fragile Wasserzeichen) oder auf die Spurverfolgung (durch robuste Wasserzeichen). Die kritische dritte Frage – „Wo genau wurde manipuliert?" (Lokalisierung) – wird von bestehenden Zwei-Funktions-Methoden häufig ignoriert. Zudem besteht oft ein Zielkonflikt zwischen Robustheit, Unauffälligkeit (Imperceptibility) und der Kapazität des Wasserzeichens (Payload).

2. Methodik: Das LIDMark-Framework

Die Autoren schlagen ein einheitliches, proaktives Forensik-Framework vor, das auf einem neuartigen Wasserzeichen und einem spezialisierten Decoder basiert.

A. LIDMark (152-D Landmark-Identity Watermark)

Das Kernstück ist ein zusammengesetztes Wasserzeichen LIDMark, das zwei heterogene Informationsströme strukturell miteinander verwebt:

Landmark-Vektor ( $W_L$ ): Ein 136-dimensionaler Vektor, der die 2D-Gesichtspunkte (68 Punkte $\times$ 2 Koordinaten) kodiert. Dieser Teil ist manipulationsempfindlich (semi-fragil) und dient der Erkennung und Lokalisierung.
Identifikator-Vektor ( $W_{ID}$ ): Ein 16-dimensionaler bipolarer Vektor (aus einem SHA-256-Hash des Dateinamens abgeleitet), der als robuster Quellenspeicher dient.
Das Gesamtwasserzeichen $W = [W_L; W_{ID}]$ hat eine Länge von 152 Dimensionen und ermöglicht so eine hohe Datendichte.

B. Netzwerkarchitektur

Das Framework besteht aus einem Encoder, einem Factorized-Head Decoder (FHD) und einem Diskriminator, die gemeinsam gegen stochastische Manipulationsoperatoren trainiert werden.

Encoder: Ein Zwei-Stream-Fusionsnetzwerk, das das Wasserzeichen unauffällig in das Cover-Bild einbettet, während die visuelle Qualität erhalten bleibt.
Factorized-Head Decoder (FHD): Dies ist die zentrale Innovation. Anstatt komplexer Dual-Decoder-Architekturen nutzt der FHD einen gemeinsamen Backbone, der die extrahierten Merkmale in zwei spezialisierte Köpfe aufteilt:
- Regression-Head: Rekonstruiert robust die 136-dimensionalen Gesichtspunkte ( $\hat{W}_L$ ), selbst wenn das Bild manipuliert wurde.
- Klassifizierungs-Head: Decodiert robust den 16-dimensionalen Quellenspeicher ( $\hat{W}_{ID}$ ).
Stochastischer Manipulationsoperator: Simuliert während des Trainings eine Vielzahl von Angriffen (z. B. Skalierung, Kompression, GAN-basierte Deepfakes wie SimSwap, UniFace), um die Generalisierungsfähigkeit zu gewährleisten.

C. Der „Intrinsic-Extrinsic"-Konsistenzcheck

Dieser Mechanismus ermöglicht die Erkennung und Lokalisierung ohne Referenzbild (blind):

Der FHD rekonstruiert die „intrinsischen" Landmarken ( $\hat{W}_L$ ) aus dem manipulierten Bild (diese sollten stabil bleiben, da sie im Wasserzeichen verankert sind).
Ein herkömmlicher Gesichtsalignment-Algorithmus detektiert die „extrinsischen" Landmarken ( $W_{new}$ ) direkt aus dem manipulierten Bild.
Erkennung: Ein hoher durchschnittlicher euklidischer Abstand (AED) zwischen $\hat{W}_L$ und $W_{new}$ deutet auf eine Fälschung hin.
Lokalisierung: Durch den semantischen Aufbau des Landmark-Vektors kann der AED lokal für einzelne Gesichtsbereiche berechnet werden, um genau zu lokalisieren, welche Regionen manipuliert wurden.

3. Hauptbeiträge

Erste trifunktionale Lösung: Das Paper stellt das erste Framework vor, das Deepfake-Erkennung, Manipulationslokalisierung und Quellenspurverfolgung in einem einzigen Modell vereint.
Neuartiges Wasserzeichen (LIDMark): Die erste strukturelle Verwebung eines manipulationsempfindlichen geometrischen Signals (136-D) mit einem robusten Identifikator (16-D) in einem einzigen Payload.
Factorized-Head Decoder (FHD): Eine innovative Architektur, die durch Aufteilung in Regression und Klassifizierung die unterschiedlichen mathematischen Anforderungen beider Aufgaben gleichzeitig erfüllt, ohne die Robustheit zu opfern.
Hohe Kapazität bei hoher Qualität: Trotz der Einbettung von 152 Bit (im Vergleich zu typischen 30-128 Bit in anderen Arbeiten) bleibt die Bildqualität (PSNR/SSIM) auf einem sehr hohen Niveau.

4. Ergebnisse

Die Evaluierung erfolgte auf den Datensätzen CelebA-HQ und LFW unter verschiedenen Verzerrungen und Deepfake-Modellen (SimSwap, UniFace, StarGAN-v2, etc.).

Visuelle Qualität: Das Framework erreicht PSNR-Werte von bis zu 44,31 dB und SSIM von 0,99 (bei 256x256), was die beste Leistung unter den verglichenen Baselines (wie SepMark, DiffMark, KAD-Net) darstellt.
Robustheit (Spurverfolgung): Der Bit Error Rate (BER) für den Quellenspeicher liegt im Durchschnitt bei ca. 2,55 % (bei 256x256) unter Deepfake-Angriffen, was signifikant besser ist als bei vielen Baselines, die bei schweren Angriffen oft versagen (BER > 30-50 %).
Erkennung und Lokalisierung: Der Konsistenzcheck erreicht eine hohe Trennschärfe zwischen harmlosen Verzerrungen und Deepfakes (AUC-Score von 0,9388). Die Lokalisierung kann präzise die manipulierten Gesichtsregionen identifizieren.
Generalisierung: Das auf CelebA-HQ trainierte Modell zeigt auch auf dem unbekannten LFW-Datensatz hervorragende Ergebnisse, was die Robustheit gegenüber Out-of-Distribution-Daten unterstreicht.

5. Bedeutung und Ausblick

Das Paper adressiert eine kritische Lücke in der digitalen Forensik, indem es die drei fundamentalen Fragen („Ist es echt?", „Wo ist es gefälscht?", „Woher kommt es?") in einem einzigen, effizienten System beantwortet.

Praktische Relevanz: Die Fähigkeit, nicht nur eine Fälschung zu erkennen, sondern auch die manipulierten Bereiche zu lokalisieren und den Ursprung zu verfolgen, ist entscheidend für die Aufklärung von Betrugsfällen und die Wiederherstellung des Vertrauens in visuelle Medien.
Zukunftsperspektive: Die Autoren planen, die Robustheit gegenüber noch unbekannten Deepfake-Techniken zu verbessern und das Framework auf Video-Modalitäten zu erweitern.

Zusammenfassend bietet LIDMark einen „All-in-One"-Ansatz, der die Grenzen zwischen proaktiver Verteidigung und reaktiver Forensik überwindet und einen neuen Standard für robuste, hochkapazitive und unauffällige Wasserzeichen setzt.