PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Schriftsteller, der so gut schreibt, dass niemand mehr unterscheiden kann, ob ein Text von einem Menschen oder einer künstlichen Intelligenz (KI) stammt. Das ist heutzutage ein riesiges Problem. Um das zu lösen, brauchen wir eine Art „unsichtbare Tinte" oder einen digitalen Wasserzeichen, das die KI in ihre Texte einbaut.

Das Problem mit den bisherigen Methoden war jedoch: Entweder war das Wasserzeichen so leicht zu entfernen, dass ein Hacker es mit einem einfachen „Neuformulieren" (Paraphrasieren) löschen konnte, oder die Methode war so grob, dass der Text dadurch klang, als hätte ein Roboter mit einem Kloben geschrieben (verzerrt).

Die Autoren dieses Papers haben eine neue Lösung namens PMARK entwickelt. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der alte Ansatz war wie ein zerbrechliches Sieb

Frühere Methoden haben versucht, Wörter (Tokens) zu markieren. Stell dir das vor wie ein Sieb, das nur bestimmte Buchstaben durchlässt. Wenn ein Angreifer den Text nun umschreibt (z. B. „Der Hund bellt" zu „Das Tier macht Wauwau"), ist das Sieb kaputt und das Wasserzeichen ist weg.

Andere Methoden haben ganze Sätze als Einheit genommen, aber sie waren oft „verzerrt". Das war, als würde ein Koch versuchen, ein Gericht zu kochen, aber er darf nur Zutaten aus einem sehr kleinen, starren Regal nehmen. Das Ergebnis schmeckt oft nicht mehr so gut wie das Original.

2. Die Lösung: PMARK – Der „Multi-Channel"-Koch

PMARK geht einen ganz anderen Weg. Statt nur auf Wörter zu schauen, betrachtet es den ganzen Satz als eine Einheit. Aber wie baut man das Wasserzeichen ein, ohne den Geschmack (die Qualität) zu verderben?

Stell dir vor, du hast einen riesigen Raum voller Sätze.

Der Proxy-Funktion (PF): Das ist wie ein Kompass. Er zeigt jedem Satz eine Zahl zu, basierend auf seiner „Bedeutung" und Richtung im Raum.
Der Median (Die Mitte): PMARK schaut sich eine Gruppe von Sätzen an und findet die „Mitte" (den Median) dieser Zahlen.

Der Trick:
Anstatt Sätze zu verwerfen (was den Geschmack verändert), wählt PMARK Sätze aus, die auf einer bestimmten Seite dieser „Mitte" liegen.

Das Geheimnis: Wenn du zufällig Sätze wählst, die entweder über oder unter der Mitte liegen, ist das Ergebnis im Durchschnitt genau so gut wie das Original. Es gibt keine Verzerrung! Das ist, als würdest du eine Münze werfen: Wenn du immer die Seite nimmst, die oben liegt, hast du immer noch eine faire Münze, wenn du über viele Würfe hinweg entscheidest.

3. Der Super-Gag: Mehrere Kanäle (Multi-Channel)

Das war noch nicht alles. Ein einzelner Kompass (ein Kanal) reicht nicht aus, denn ein cleverer Angreifer könnte den Satz so umschreiben, dass er immer noch auf der „richtigen" Seite des Kompasses liegt, aber das Wasserzeichen trotzdem unsichtbar macht.

PMARK nutzt daher mehrere Kompassnadeln gleichzeitig (z. B. 4 verschiedene Richtungen).

Die Analogie: Stell dir vor, du willst einen Schatz finden. Ein einziger Kompass könnte dich in die Irre führen, wenn du ihn drehst. Aber wenn du vier Kompassnadeln hast, die alle orthogonal (im rechten Winkel) zueinander stehen, ist es für einen Angreifer fast unmöglich, den Text so umzuformulieren, dass er alle vier Kompassnadeln gleichzeitig täuscht.
Je mehr Kanäle, desto dichter ist das Wasserzeichen-Netz und desto schwerer ist es zu durchbrechen.

4. Online vs. Offline: Der schnelle Koch vs. der effiziente Koch

Das Paper bietet zwei Versionen an:

Online-Version: Der Koch schaut sich während des Kochens ständig neue Zutaten an, berechnet die Mitte neu und wählt dann. Das ist sehr genau und extrem robust, braucht aber etwas mehr Rechenleistung (wie ein Koch, der ständig probiert).
Offline-Version: Der Koch weiß bereits vorher, wo die Mitte liegt (er nutzt eine feste Annahme, dass die Mitte bei Null liegt). Das ist viel schneller und spart Ressourcen, ist aber immer noch sehr gut.

Warum ist das wichtig?

Kein Qualitätsverlust: Die Texte klingen natürlich, als wären sie von einem Menschen geschrieben (keine „Roboter-Stimme").
Unzerstörbar: Selbst wenn jemand den Text mit einer KI umschreiben lässt, bleibt das Wasserzeichen erhalten, weil es auf der tiefen Bedeutungsebene und nicht nur auf den Wörtern basiert.
Effizient: Es braucht weniger Rechenzeit als viele andere Methoden.

Zusammenfassend:
PMARK ist wie ein unsichtbarer, unzerstörbarer Stempel auf jedem Satz, den eine KI schreibt. Er nutzt einen cleveren mathematischen Trick (die Mitte der Verteilung), um den Text nicht zu verfälschen, und nutzt mehrere „Augen" (Kanäle), um sicherzustellen, dass niemand das Wasserzeichen durch Umformulieren entfernen kann. Es ist der bisher beste Weg, um KI-Texte sicher zu kennzeichnen, ohne dass sie schlecht klingen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mit dem rapiden Fortschritt generativer KI (GenAI) und Large Language Models (LLMs) wächst die Notwendigkeit, maschinell generierte Texte zu identifizieren, um Urheberrechte zu schützen und die Nachverfolgbarkeit sicherzustellen.

Token-Level-Wasserzeichen: Herkömmliche Methoden (z. B. Green-Red-Schemata) manipulieren die Wahrscheinlichkeitsverteilung einzelner Tokens. Diese sind jedoch anfällig für semantische Angriffe wie Paraphrasieren, da Angreifer den Text neu formulieren können, ohne die semantische Bedeutung zu verändern, wodurch das Wasserzeichen verloren geht.
Semantische Wasserzeichen (SWM): Ansätze wie SemStamp behandeln ganze Sätze als Einheit. Sie nutzen oft Rejection Sampling (Ablehnungsstichprobe), um Sätze zu wählen, die in einem definierten „grünen" Bereich des Embedding-Raums liegen.
Herausforderungen:
1. Verzerrung (Distortion): Bestehende SWM-Methoden verzerren oft die ursprüngliche Verteilung des LLM, was die Textqualität (Perplexity) verschlechtert.
2. Robustheit: Die Beweiskette für das Wasserzeichen ist bei einzelnen Sätzen oft zu dünn (spärlich), was sie anfällig für Angriffe macht.
3. Theoretische Garantien: Es fehlt an strengen theoretischen Beweisen für die Verzerrungsfreiheit und Robustheit.

2. Methodik: PMARK

Die Autoren stellen PMARK vor, eine neue Methode für semantische Wasserzeichen, die auf einem theoretischen Rahmenwerk basiert und zwei Hauptvarianten bietet: eine Online-Version (dynamisch) und eine Offline-Version (effizient).

A. Theoretisches Rahmenwerk: Proxy Functions (PF)

Das Kernkonzept ist die Proxy Function (PF), eine Funktion $F: \Sigma^* \to \mathbb{R}$ , die einen semantisch vollständigen Satz auf einen skalaren Wert abbildet.

Im Paper wird die PF als Kosinus-Ähnlichkeit zwischen dem Satz-Embedding und einem vordefinierten zufälligen Vektor (Pivot-Vektor) definiert.
Das Ziel ist es, die Median-Verteilung dieser PF-Werte zu nutzen, um eine Verzerrungsfreie Stichprobe zu gewährleisten.

B. Single-Channel vs. Multi-Channel

Single-Channel (Basis): Ein Satz wird als wasserzeichenhaltig markiert, wenn seine PF über (oder unter) dem Median der Stichprobe liegt. Theoretisch ist dies verzerrungsfrei, wenn der Median genau bekannt ist. Allerdings ist die Robustheit gegen Paraphrasierung gering, da ein Angriff den PF-Wert leicht über den Median verschieben kann.
Multi-Channel Constraints (Kerninnovation): Um die Robustheit zu erhöhen, nutzt PMARK mehrere orthogonale Pivot-Vektoren (Channels). Ein Satz muss die Wasserzeichen-Bedingung für mehrere dieser Kanäle gleichzeitig erfüllen.
- Online PMARK: Schätzt den Median der PF für jeden Kanal dynamisch durch Stichprobenziehung (Sampling) während der Generierung.
- Offline PMARK: Nutzt die Beobachtung, dass in hochdimensionalen Räumen die Medianwerte von zufälligen Projektionen nahe bei Null liegen. Daher wird 0 als fester Prior-Median verwendet. Dies eliminiert die Notwendigkeit der dynamischen Median-Schätzung und reduziert den Rechenaufwand drastisch.

C. Detektion: Soft-z-Test

Für die Detektion wird ein Soft-z-Test verwendet. Anstatt hart zu zählen, ob ein Satz im „grünen" Bereich liegt, wird ein weicher Zähler (Smooth Counting) verwendet, der die Distanz des PF-Werts zum Median berücksichtigt. Dies macht die Detektion robuster gegen kleine Variationen durch Angriffe.

3. Schlüsselbeiträge

Einheitliches theoretisches Framework: Einführung der Proxy Function, um bestehende SWM-Methoden zu vereinheitlichen und eine solide analytische Basis für die Leistungsbewertung zu schaffen.
Verzerrungsfreiheit (Distortion-Free): PMARK ist das erste SWM-Verfahren mit strengen theoretischen Garantien für Verzerrungsfreiheit (unter milden Voraussetzungen), da es die ursprüngliche Verteilung des LLM nicht verzerrt, sondern nur eine Teilmenge der Stichprobe auswählt, die im Mittel der Originalverteilung entspricht.
Dichte Wasserzeichen-Beweise: Identifikation, dass die Spärlichkeit von Beweisen in bestehenden SWM-Methoden die Anfälligkeit für Angriffe erhöht. PMARK löst dies durch Multi-Channel-Constraints, die die Beweisdichte pro Satz erhöhen.
Effizienz: Die Offline-Version reduziert den Rechenaufwand erheblich, da sie keine dynamische Median-Schätzung benötigt und somit weniger Token-Verbrauch pro Satz erfordert als SOTA-Methoden.

4. Experimentelle Ergebnisse

Die Autoren evaluierten PMARK auf den Datensätzen C4 und BOOKSUM mit den Modellen OPT-1.3B und Mistral-7B.

Robustheit:
- PMARK übertrifft bestehende Token-Level- und Semantische-Methoden (wie SemStamp, k-SemStamp, SimMark) signifikant bei Paraphrasierungsangriffen (durch GPT-3.5, Parrot, Pegasus).
- Bei Paraphrasierungsangriffen erreichte die Online-Version eine True Positive Rate (TPR@FP=1%) von über 93–97%, während die besten Baselines oft unter 80% lagen (bis zu 44,6% Verbesserung gegenüber Token-Level-Methoden).
- Auch bei Wort-Ebenen-Angriffen (Löschung, Synonym-Ersetzung) zeigt PMARK State-of-the-Art-Robustheit.
Textqualität (Verzerrung):
- Gemessen an der Perplexity (PPL) bleibt die Textqualität hoch. PMARK (Online) erreicht PPL-Werte von 4,37–4,71, was vergleichbar oder besser als bei unmarkiertem Text und deutlich besser als bei vielen Baselines ist.
Effizienz:
- Die Online-Version benötigt nur 20% der Ressourcen (Token-Verbrauch) im Vergleich zu früheren semantischen SWM-Methoden.
- Die Offline-Version ist noch effizienter und benötigt weniger Token pro Satz als k-SemStamp, bei gleichzeitig höherer Robustheit.

5. Bedeutung und Fazit

PMARK stellt einen Paradigmenwechsel im Bereich des Text-Wasserzeichens dar.

Es löst das fundamentale Dilemma zwischen Robustheit und Textqualität, indem es theoretisch verzerrungsfreie Generierung mit Multi-Channel-Constraints kombiniert.
Es adressiert die Schwäche bestehender Methoden gegenüber semantischen Angriffen durch die Erhöhung der Beweisdichte pro Satz.
Die Methode ist praktisch einsetzbar, da die Offline-Version geringe Rechenkosten hat und keine Abhängigkeit von dynamischen Median-Schätzungen während der Detektion aufweist.

Zusammenfassend bietet PMARK einen robusteren, qualitativ hochwertigeren und effizienteren Ansatz zur Erkennung von KI-generierten Texten und setzt neue Maßstäbe für semantische Wasserzeichen.