StreamMark: A Deep Learning-Based Semi-Fragile Audio Watermarking for Proactive Deepfake Detection

StreamMark is een nieuw, op diepe learning gebaseerd semi-fragiel audiomarkeringssysteem dat proactief deepfakes detecteert door robuust te blijven tegen onschadelijke compressie en ruis, terwijl het gevoelig is voor kwaadaardige manipulaties die de semantiek van de spraak veranderen.

Zhentao Liu, Milos Cernak

Gepubliceerd 2026-04-15
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

StreamMark: De Onzichtbare "Stempel" die Deepfakes Ontmaskert

Stel je voor dat je een waardevol schilderij hebt. Vroeger was het makkelijk om te zien of het echt was: je keek naar de penseelstreken. Maar vandaag de dag kunnen slimme computers (AI) zo'n perfect schilderij namaken dat zelfs experts het niet meer van het origineel kunnen onderscheiden. Dit is precies wat er gebeurt met stemmen: AI kan nu zo goed klinken als een echte mens, dat we niet meer weten of we met een echte persoon of een nep (een "deepfake") te maken hebben.

Tot nu toe probeerden we dit op te lossen door te kijken na het feit: "Is dit geluid nep?" (Passieve detectie). Maar dat is als een brandweerman die pas komt als het huis al in brand staat. Het is te laat.

StreamMark is een nieuwe, slimme oplossing die werkt als een proactieve brandstichter (in een goede zin!). Het is een systeem dat een onzichtbare "stempel" of "watermerk" in de stem van de spreker plaatst voordat het geluid de wereld in gaat.

Hier is hoe het werkt, in gewone taal:

1. Het Probleem met de oude "Onbreekbare" Stempels

Vroeger wilden mensen watermerken die onbreekbaar waren. Of je het geluid nu comprimeert, verkleint of door een ruw systeem stuurt, het watermerk moest blijven staan.

  • Het probleem: Stel je voor dat iemand je stem steelt en een nep-bericht met jouw stem maakt. Als je watermerk "onbreekbaar" is, blijft het watermerk ook in die nep-uitvoering staan! Het systeem denkt dan: "Oh, dit is nog steeds de echte stem," terwijl het eigenlijk een leugen is. De onbreekbaarheid wordt hier een zwakte.

2. StreamMark: De "Slimme" Stempel

StreamMark introduceert een nieuw idee: Semi-Fragiel (half-gevoelig).
Stel je voor dat je een brief schrijft op een speciaal papier dat twee eigenschappen heeft:

  • Eigenschap A: Als je de brief een beetje nat maakt (regen, koffie), of als je hem in een envelop stopt (compressie), blijft de tekst leesbaar. Dit noemen we onschuldige veranderingen.
  • Eigenschap B: Als iemand de tekst van de brief volledig herschrijft (bijvoorbeeld de naam van de geadresseerde veranderen), dan verdwijnt het papier of wordt het onleesbaar. Dit noemen we kwaadaardige veranderingen.

StreamMark doet precies dit met geluid:

  • Onschuldig: Als je geluid wordt gecomprimeerd (zoals bij WhatsApp of Zoom), of als er wat ruis bij komt, blijft het watermerk intact. Het systeem zegt: "Oké, dit is nog steeds de echte stem, alleen wat slechter geluidskwaliteit."
  • Kwaadaardig: Als een AI de stem van de spreker verandert (Voice Conversion) of de tekst volledig herschrijft (Speech Editing), breekt het watermerk. Het systeem zegt: "Stop! Dit is niet meer de originele stem. Iemand heeft de inhoud gemanipuleerd."

3. Hoe werkt het technisch? (De Magie)

Het team heeft een slim computerprogramma (een "Encoder") gebouwd dat het watermerk niet alleen in de "sterkte" van het geluid stopt, maar ook in de "fase" (een soort onzichtbare timing).

  • Vergelijking: Het is alsof je een boodschap niet alleen met zwarte inkt schrijft, maar ook met een onzichtbare inkt die alleen zichtbaar is onder een speciale lamp. Door beide te gebruiken, is het watermerk voor het menselijk oor volledig onhoorbaar (zeer natuurlijk klinkend), maar voor de computer perfect leesbaar.

4. Wat laten de tests zien?

De onderzoekers hebben StreamMark getest tegen de beste andere systemen:

  • Kwaliteit: Het geluid klinkt nog steeds perfect (zoals een CD). Mensen horen geen verschil.
  • Robuustheid: Het werkt zelfs als het geluid door een slechte internetverbinding gaat (zoals Opus-compressie, gebruikt in WebEx en Teams). Het watermerk blijft staan.
  • Deepfake-Detectie: Als ze een AI-voicecloner lieten proberen de stem na te bootsen, verloor het watermerk zich direct. De computer kon het bericht niet meer lezen. Het systeem wist dus: "Dit is nep!"

Conclusie

StreamMark is als een veiligheidszegel op een fles wijn.

  • Als je de fles even schudt of de temperatuur verandert (onschuldig), is het zegel nog heel en weet je dat het echte wijn is.
  • Maar als iemand de fles opent, de inhoud vervangt en een nieuw label plakt (kwaadaardig), is het zegel kapot. Je weet dan direct: "Dit is niet meer de originele wijn."

Met StreamMark kunnen we in de toekomst niet alleen zeggen "dit klinkt nep", maar we kunnen proactief zeggen: "Dit is de echte stem, tenzij het watermerk is gebroken, wat betekent dat iemand de inhoud heeft gemanipuleerd." Het is een grote stap naar een veiliger internet waar we weer kunnen vertrouwen op wat we horen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →