Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

Latent-Mark is een nieuw nul-bits audio-watermerksysteem dat door het inbedden van watermerken in de invariante latente ruimte van neurale codecs en het toepassen van cross-codec optimalisatie, robuust is tegen neurale hersynthese terwijl het de hoorbaarheid behoudt.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou, Yi-Cheng Lin, Bing-Yu Chen, Yun-Nung Chen, Hung-Yi Lee, Shang-Tse Chen

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel waardevol schilderij hebt. Om te bewijzen dat het van jou is, teken je een onzichtbaar handtekening in de verf. Normaal gesproken is dit handtekening zo subtiel dat niemand het ziet, maar als je er met een vergrootglas (een computerprogramma) naar kijkt, kun je het wel vinden.

Het probleem:
Vroeger waren deze "onzichtbare handtekeningen" in audio (geluid) heel goed bestand tegen het knippen, plakken, comprimeren of filteren van geluid. Maar er is een nieuw soort "verfvernieler" opgedoken: Neurale Codecs.

Dit zijn slimme AI-systemen die geluid opnemen, het in stukjes breken, en het daarna weer opnieuw opbouwen alsof ze het zelf hebben gecomponeerd. Het probleem is dat deze AI's als een strenge chef-kok zijn die alleen de "smaak" van het gerecht behoudt en alle "kruiden" die niet nodig zijn voor de smaak, weggooit. De oude watermerken waren als die extra kruiden: ze zaten in de golfvorm van het geluid, maar de AI zag ze als ruis en gooide ze weg. Na één keer door zo'n AI te laten gaan, was je watermerk verdwenen.

De oplossing: LATENT-MARK
De onderzoekers van dit papier (van de Universiteit van Taiwan en anderen) hebben een nieuwe manier bedacht om een watermerk te maken dat niet in de "kruiden" zit, maar in de essentie van het gerecht zelf.

Hier is hoe het werkt, vertaald naar een simpele analogie:

1. De "Onzichtbare Weg" (De Latent Space)

Stel je voor dat het geluid een boek is.

  • Oude methode: Je schrijft een geheime boodschap met een onzichtbare inkt op de rand van de pagina's. Als je het boek door een fotokopieerder (de AI) haalt, is de inkt weg.
  • Nieuwe methode (Latent-Mark): Je verandert de zin van een paar zinnen in het boek, maar zo subtiel dat het verhaal nog steeds precies hetzelfde klinkt voor de lezer. Je verandert de betekenis (de "latent space") van het geluid, niet de letters zelf.

De onderzoekers zeggen: "Als we het watermerk in de 'ziel' van het geluid stoppen, in de ruimte waar de AI het geluid begrijpt, dan zal de AI het niet weggooien, omdat het nu deel uitmaakt van de structuur van het geluid."

2. De "Kluis" (De Quantisatie)

Deze AI's werken met een soort kluis (een codeboek). Ze kijken naar het geluid en zeggen: "Dit geluid lijkt het meest op 'klank A' uit onze lijst, dus we gebruiken 'klank A'."

  • Als je een watermerk toevoegt dat eruitziet als ruis, denkt de AI: "Dat is geen echte 'klank A', dat is ruis," en verwijdert het.
  • Met Latent-Mark duwen ze het geluid heel voorzichtig in een specifieke richting binnen de "klank A". Het is alsof ze de 'klank A' een heel klein beetje naar links duwen. De AI denkt nog steeds: "Ah, dit is 'klank A' (maar dan een beetje naar links)," en bewaart het.

3. De "Meester-Kok" (Cross-Codec Optimalisatie)

Het grootste probleem is: wat als je een watermerk maakt voor één specifiek AI-systeem, en iemand gebruikt een ander AI-systeem om je geluid te vernietigen? Dan werkt je watermerk misschien niet meer.

De onderzoekers hebben een slimme truc bedacht: Cross-Codec Optimalisatie.
Stel je voor dat je een sleutel maakt die niet alleen in één slot past, maar in alle sloten van een heel complex gebouw. Ze laten hun watermerk niet alleen trainen door één AI, maar door een team van verschillende AI's tegelijkertijd. Ze vragen: "Hoe kunnen we dit geluid zo veranderen dat alle deze verschillende AI's het als 'echt' herkennen, maar dat het voor de mens nog steeds klinkt als normaal geluid?"

Dit zorgt ervoor dat het watermerk "robuust" is. Het werkt zelfs als je het door een AI stuurt die ze nooit eerder hebben gezien (een "black box").

Wat is het resultaat?

  • Onhoorbaar: Voor een mens klinkt het geluid precies hetzelfde. Er is geen gekraak of ruis.
  • Onvernietigbaar: Zelfs als iemand het geluid door de nieuwste, slimste AI's haalt om het te comprimeren of opnieuw te genereren, blijft het watermerk zitten.
  • Veilig: Het werkt ook nog steeds tegen de oude methoden (zoals het verlagen van de volume of het toevoegen van ruis).

Kortom:
De onderzoekers hebben een watermerk bedacht dat niet meer "op" het geluid zit, maar "in" het geluid zit. Het is alsof ze de DNA-structuur van het geluid hebben aangepast in plaats van er een sticker op te plakken. Zelfs als je het geluid volledig "opnieuw bouwt" met AI, blijft het DNA (het watermerk) intact, zodat je altijd kunt bewijzen dat het geluid van jou is.