Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel waardevol schilderij hebt. Om te bewijzen dat het van jou is, teken je een onzichtbaar handtekening in de verf. Normaal gesproken is dit handtekening zo subtiel dat niemand het ziet, maar als je er met een vergrootglas (een computerprogramma) naar kijkt, kun je het wel vinden.

Het probleem:
Vroeger waren deze "onzichtbare handtekeningen" in audio (geluid) heel goed bestand tegen het knippen, plakken, comprimeren of filteren van geluid. Maar er is een nieuw soort "verfvernieler" opgedoken: Neurale Codecs.

Dit zijn slimme AI-systemen die geluid opnemen, het in stukjes breken, en het daarna weer opnieuw opbouwen alsof ze het zelf hebben gecomponeerd. Het probleem is dat deze AI's als een strenge chef-kok zijn die alleen de "smaak" van het gerecht behoudt en alle "kruiden" die niet nodig zijn voor de smaak, weggooit. De oude watermerken waren als die extra kruiden: ze zaten in de golfvorm van het geluid, maar de AI zag ze als ruis en gooide ze weg. Na één keer door zo'n AI te laten gaan, was je watermerk verdwenen.

De oplossing: LATENT-MARK
De onderzoekers van dit papier (van de Universiteit van Taiwan en anderen) hebben een nieuwe manier bedacht om een watermerk te maken dat niet in de "kruiden" zit, maar in de essentie van het gerecht zelf.

Hier is hoe het werkt, vertaald naar een simpele analogie:

1. De "Onzichtbare Weg" (De Latent Space)

Stel je voor dat het geluid een boek is.

Oude methode: Je schrijft een geheime boodschap met een onzichtbare inkt op de rand van de pagina's. Als je het boek door een fotokopieerder (de AI) haalt, is de inkt weg.
Nieuwe methode (Latent-Mark): Je verandert de zin van een paar zinnen in het boek, maar zo subtiel dat het verhaal nog steeds precies hetzelfde klinkt voor de lezer. Je verandert de betekenis (de "latent space") van het geluid, niet de letters zelf.

De onderzoekers zeggen: "Als we het watermerk in de 'ziel' van het geluid stoppen, in de ruimte waar de AI het geluid begrijpt, dan zal de AI het niet weggooien, omdat het nu deel uitmaakt van de structuur van het geluid."

2. De "Kluis" (De Quantisatie)

Deze AI's werken met een soort kluis (een codeboek). Ze kijken naar het geluid en zeggen: "Dit geluid lijkt het meest op 'klank A' uit onze lijst, dus we gebruiken 'klank A'."

Als je een watermerk toevoegt dat eruitziet als ruis, denkt de AI: "Dat is geen echte 'klank A', dat is ruis," en verwijdert het.
Met Latent-Mark duwen ze het geluid heel voorzichtig in een specifieke richting binnen de "klank A". Het is alsof ze de 'klank A' een heel klein beetje naar links duwen. De AI denkt nog steeds: "Ah, dit is 'klank A' (maar dan een beetje naar links)," en bewaart het.

3. De "Meester-Kok" (Cross-Codec Optimalisatie)

Het grootste probleem is: wat als je een watermerk maakt voor één specifiek AI-systeem, en iemand gebruikt een ander AI-systeem om je geluid te vernietigen? Dan werkt je watermerk misschien niet meer.

De onderzoekers hebben een slimme truc bedacht: Cross-Codec Optimalisatie.
Stel je voor dat je een sleutel maakt die niet alleen in één slot past, maar in alle sloten van een heel complex gebouw. Ze laten hun watermerk niet alleen trainen door één AI, maar door een team van verschillende AI's tegelijkertijd. Ze vragen: "Hoe kunnen we dit geluid zo veranderen dat alle deze verschillende AI's het als 'echt' herkennen, maar dat het voor de mens nog steeds klinkt als normaal geluid?"

Dit zorgt ervoor dat het watermerk "robuust" is. Het werkt zelfs als je het door een AI stuurt die ze nooit eerder hebben gezien (een "black box").

Wat is het resultaat?

Onhoorbaar: Voor een mens klinkt het geluid precies hetzelfde. Er is geen gekraak of ruis.
Onvernietigbaar: Zelfs als iemand het geluid door de nieuwste, slimste AI's haalt om het te comprimeren of opnieuw te genereren, blijft het watermerk zitten.
Veilig: Het werkt ook nog steeds tegen de oude methoden (zoals het verlagen van de volume of het toevoegen van ruis).

Kortom:
De onderzoekers hebben een watermerk bedacht dat niet meer "op" het geluid zit, maar "in" het geluid zit. Het is alsof ze de DNA-structuur van het geluid hebben aangepast in plaats van er een sticker op te plakken. Zelfs als je het geluid volledig "opnieuw bouwt" met AI, blijft het DNA (het watermerk) intact, zodat je altijd kunt bewijzen dat het geluid van jou is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "LATENT-MARK: An Audio Watermark Robust to Neural Resynthesis" in het Nederlands.

Probleemstelling

Bestaande audio-watermerkingstechnieken (zoals AudioSeal, WavMark en Timbre) hebben bewezen robuust te zijn tegen traditionele digitale signaalverwerking (DSP)-aanvallen, zoals compressie, filtering en resampling. Ze zijn echter kwetsbaar voor neurale hersynthese (neural resynthesis).

Moderne neurale audiocodecs (zoals EnCodec, SNAC) werken niet als lokale DSP-verstoringen, maar als semantische filters. Ze mappen het golfvormsignaal af naar een discreet latente ruimte (tokens) en reconstrueren het geluid opnieuw. Tijdens dit proces worden de onhoorbare golfvormvariaties die traditionele watermerken gebruiken, behandeld als "off-manifold" ruis en gedurende de kwantisatie en reconstructie verwijderd. Dit resulteert in een catastrofale mislukking van bestaande watermerken na slechts één encoder-decoder cyclus, wat een ernstig veiligheidsrisico vormt voor intellectuele eigendomsbescherming in generatieve AI-pipelines.

Methodologie: LATENT-MARK

De auteurs stellen LATENT-MARK voor, het eerste zero-bit audio-watermerkingframework dat specifiek is ontworpen om te overleven in semantische bottlenecks van neurale codecs.

Kerninzicht:
Robuustheid tegen het encode-decode-proces vereist dat het watermerk wordt ingebed in de invariante latente ruimte van de codec, in plaats van op het golfvormniveau.

Technische Aanpak:

Latent Space Shift: In plaats van ruis toe te voegen aan het audiosignaal, optimaliseert LATENT-MARK het golfvormsignaal ( $s + \delta$ ) zodanig dat het een detecteerbare, gerichte verschuiving induceert in de continue latente representatie ( $z$ ) van de codec, voordat deze de kwantisator ( $Q$ ) bereikt.
Optimalisatieprobleem: Het doel is om de projectie van de latente representatie op een geheim manifold-richtingsvector ( $v_c$ $v_{c}$ ) te maximaliseren, onder de beperking dat de golfvormverstoring ( $\delta$ $δ$ ) onhoorbaar blijft (bepaald door een dynamische drempel gebaseerd op SDR).
- De loss-functie is een hinge loss die de verschuiving naar de doelrichting forceert.
- De vector $v_c$ wordt geselecteerd door het clusteren van de codebook-weights (K-means, $k=2$ ) en het nemen van de eenheidsvector tussen de twee centroiden. Dit zorgt ervoor dat het watermerk lijkt op een structureel kenmerk in plaats van ruis.
Cross-Codec Optimalisatie (Zero-Shot Transfer): Om overfitting op één specifieke codec te voorkomen, introduceert het framework een gezamenlijke optimalisatie over meerdere surrogate codecs (bijv. SNAC, DAC, EnCodec).
- Door gradients te balanceren en een gezamenlijke loss-functie te minimaliseren, wordt een watermerk gevonden dat gemeenschappelijke semantische structuren over verschillende codec-architecturen benut.
- Dit garandeert dat het watermerk ook werkt op onbekende, zwarte-doos codecs (zero-shot transferability).
Detectie: De detector berekent de gemiddelde projectie van de latente representatie op de geheime vector. Een statistische marge (gebaseerd op de verdeling van schoon audio) bepaalt of een watermerk aanwezig is.

Belangrijkste Bijdragen

Identificatie van een nieuwe aanval: De auteurs identificeren neurale hersynthese als een fundamenteel ander aanvalsregime waarbij traditionele watermerken falen omdat ze niet-semantische ruis gebruiken die door codecs wordt verwijderd.
LATENT-MARK Framework: Het eerste zero-bit framework dat watermerking realiseert door gerichte verschuivingen in de latente ruimte te induceren via gradient-based golfvormoptimalisatie.
Cross-Codec Generalisatie: De introductie van Joint Manifold Optimization, wat sterke zero-shot transferability mogelijk maakt naar onbekende codecs zonder dat het watermerk specifiek voor die codec getraind hoeft te zijn.
Balans tussen transparantie en overleving: Het framework behoudt perceptuele onhoorbaarheid terwijl het robuust is tegen zowel neurale bottlenecks als traditionele DSP-aanvallen.

Resultaten

De evaluaties werden uitgevoerd op zeven diverse datasets (spraak, muziek, omgevingsgeluid) met verschillende codecs (SNAC, EnCodec, DAC, APCodec, FunCodec).

Overleving bij Neuraal Hersynthese:
- Bestaande methoden (AudioSeal, WavMark, SilentCipher) vertoonden catastrofale uitval met detectiepercentages dicht bij 0% na passage door neurale codecs.
- LATENT-MARK behaalde overlevingspercentages (survivability) tussen 53% en 93%, afhankelijk van het dataset en de codec. De "Latent-Cluster" variant presteerde het beste, met pieken van 93,3% op de Clotho-dataset.
Zero-Shot Transferability:
- Watermerken geoptimaliseerd op een set surrogate codecs (bijv. SNAC, DAC, EnCodec) bleken succesvol over te dragen naar onbekende codecs (zoals FunCodec of APCodec) met overlevingspercentages vaak boven de 70-90%, mits de architecturale verwantschap redelijk was.
Robuustheid tegen Traditionele DSP:
- In tegenstelling tot wat vaak wordt gedacht, behoudt LATENT-MARK sterke robuustheid tegen traditionele aanvallen zoals Gaussisch ruis, amplitude-scaling, low-pass filtering en resampling. Het presteert vergelijkbaar met gespecialiseerde DSP-robuste methoden zoals WavMark.
Kwaliteit en Onhoorbaarheid:
- Metingen met $\Delta$ SI-SNR en UTMOS (perceptuele kwaliteit) tonen aan dat de watermerken voor het menselijk oor onhoorbaar zijn. De perceptuele kwaliteit is vergelijkbaar met de beste bestaande methoden, ondanks de ingewikkelde latente manipulaties.

Betekenis en Impact

Dit paper markeert een paradigmaverschuiving in audio-watermerking. Het bewijst dat watermerken niet langer op het signaalniveau (golfvorm) moeten worden ingebed, maar direct in de semantische latente ruimte van generatieve modellen.

Veiligheid voor Generatieve AI: Het biedt een oplossing voor het beschermen van auteursrechten in een wereld waar audio steeds vaker wordt gecomprimeerd, bewerkt en gegenereerd via neurale codecs.
Toekomstgericht: Het framework is schaalbaar en kan worden aangepast aan de evolutie van generatieve modellen. Het stelt een nieuwe standaard voor "universele" watermerking die bestand is tegen de complexiteit van moderne AI-pipelines.
Wetenschappelijke Inzicht: Het benadrukt dat voor robuustheid tegen semantische bottlenecks, watermerken moeten aligneren met de interne structuur (manifold) van het codec-model in plaats van tegen de ruis te vechten.

Kortom, LATENT-MARK is een doorbraak die de kloof overbrugt tussen traditionele signaalverwerking en de realiteit van neurale hersynthese, waardoor watermerking weer effectief wordt in de era van generatieve AI.

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

1. De "Onzichtbare Weg" (De Latent Space)

2. De "Kluis" (De Quantisatie)

3. De "Meester-Kok" (Cross-Codec Optimalisatie)

Wat is het resultaat?

Probleemstelling

Methodologie: LATENT-MARK

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space