TRACE: Training-Free Partial Audio Deepfake Detection via Embedding Trajectory Analysis of Speech Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een prachtig, oud schilderij hebt. Iemand komt langs en plakt een klein, perfect nagemaakt stukje canvas op het origineel. Voor het blote oog is het verschil onzichtbaar, maar als je heel precies kijkt, zie je dat de verf op dat ene stukje net iets anders glanst of dat de penseelstreken plotseling van richting veranderen.

Dit is precies wat er gebeurt met audio-deepfakes (nepgeluiden). Vandaag de dag kunnen computers stemmen namaken die klinken als echte mensen. Maar de grootste bedreiging is niet dat alles nep is, maar dat slechts een klein stukje van een echt gesprek wordt vervangen door een nepfragment. Dit heet een partieel deepfake. Het is zo subtiel dat zelfs mensen er vaak niet achter komen.

De meeste bestaande systemen om dit op te sporen werken als een schoolmeester: ze moeten eerst duizenden voorbeelden van nepgeluiden zien, leren wat er mis is, en dan worden ze getest. Het probleem? Zodra er een nieuwe manier van stemmen nabootsen wordt uitgevonden, moet je de schoolmeester opnieuw naar school sturen. Dat kost tijd, geld en veel data.

TRACE is een heel slimme, nieuwe aanpak die dit probleem oplost zonder dat het systeem ooit "naar school" is geweest. Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Onbewuste" Expert

Stel je voor dat je een zeer ervaren pianist hebt die al 20 jaar piano speelt, maar nooit heeft geleerd om valse noten te detecteren. Als hij een stukje muziek hoort, beweegt zijn hand vanzelf soepel over de toetsen. De muziek klinkt natuurlijk.

Nu plakt iemand een stukje muziek van een computer tussen twee echte stukjes. De computer maakt een geluid dat gelijk klinkt, maar de manier waarop de noten naar elkaar toe bewegen is net iets anders. De pianist heeft nooit geleerd om dit op te merken, maar zijn handen "voelen" het verschil.

TRACE doet precies dit met AI-modellen die al zijn getraind om menselijke spraak te begrijpen (zoals WavLM of HuBERT). Deze modellen zijn zo goed in het begrijpen van taal dat ze een "gevoel" hebben voor hoe een echte stem zich moet gedragen. TRACE gebruikt dit bestaande gevoel zonder het model ooit aan te passen.

2. De "Smaaktest" van de Beweging

Hoe ziet TRACE dit verschil?
Stel je voor dat je een auto rijdt over een gladde weg (een echt gesprek). De auto beweegt soepel, de stuurknuppel draait langzaam en vloeiend.
Nu rijdt je plotseling over een stukje weg met een andere ondergrond (het nepgedeelte). De auto schokt even, het stuur maakt een abrupte beweging.

TRACE kijkt niet naar wat er gezegd wordt, maar naar hoe de AI het geluid "voelt" terwijl hij eroverheen leest.

Echt geluid: De "voetstappen" van de AI in de digitale wereld zijn soepel en vloeiend.
Nepgeluid: Op het moment dat het nepgedeelte begint, maakt de AI een abrupte sprong. Het is alsof de AI plotseling moet overstappen van een soepele weg naar een hobbelig pad.

TRACE meet deze "hobbels" en "sprongen" in de beweging van de AI. Als er een sprong is die te groot is voor een natuurlijk gesprek, weet TRACE: "Hier is iets geknipt en geplakt."

3. Waarom is dit zo speciaal?

De meeste detectives hebben een lijstje met "verdachte kenmerken" nodig (bijvoorbeeld: "als de stem te hoog klinkt, is het nep"). TRACE heeft geen lijstje nodig.

Geen training nodig: Het werkt direct op het moment dat je het geluid inlevert. Geen tijdverlies met het verzamelen van data.
Werkt overal: Omdat het kijkt naar de natuurlijke vloeiendheid van de taal, maakt het niet uit of het Nederlands, Engels of Mandarijn is, of dat de nepstem gemaakt is met een nieuwe AI-tool. De "hobbels" blijven hetzelfde.
Sneller en goedkoper: Je hoeft geen dure computers te gebruiken om het systeem te trainen.

De Resultaten in het Kort

De onderzoekers hebben TRACE getest op verschillende moeilijke situaties:

Het kon net zo goed presteren als de beste systemen die wel moesten worden getraind.
Het slaagde er zelfs in om een nieuw type deepfake (gemaakt met een zeer geavanceerde AI) te detecteren, terwijl de andere systemen erdoor werden misleid.
Het werkt zelfs als je het systeem op het ene taalgebied test en het op een ander taalgebied gebruikt.

Conclusie

TRACE is als een detective die geen lijstje met verdachten nodig heeft. Hij kijkt gewoon naar de "voetstappen" van de AI. Als de stappen niet vloeiend zijn, is er iets mis. Het is een slimme, snelle en goedkope manier om nepgeluiden op te sporen, zonder dat we hoeven te wachten tot de AI's zelf leren wat nep is. Het bewijst dat we soms de beste tools al in huis hebben; we hoeven ze alleen maar op een slimme manier te gebruiken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De snelle opkomst van neurale tekst-naar-spraak (TTS) en stemconversiesystemen heeft de creatie van hoogwaardige deepfakes vergemakkelijkt. Een specifiek en bijzonder misleidend type is de partijdige audio-deepfake. Hierbij worden gesynthetiseerde segmenten in een authentieke opname geplakt (gespoold) om de betekenis subtiel te veranderen, terwijl de sprekeridentiteit voor het grootste deel behouden blijft.

Bestaande detectiemethoden hebben drie fundamentele beperkingen:

Supervisie: Ze vereisen frame-voor-frame geannoteerde data, wat duur en tijdrovend is om te produceren.
Overfitting: Ze zijn vaak getraind op specifieke synthese-pijplijnen en generaliseren slecht naar nieuwe generatieve modellen.
Onderhoud: Ze moeten voortdurend opnieuw getraind worden naarmate de bedreigingslandschap evolueert.

Het paper stelt dat supervisie onnodig is en hypothesiseert dat spraakfoundationmodellen (speech foundation models) een latente forensische signaal bevatten dat zonder training kan worden benut.

Methodologie: TRACE

TRACE (Training-free Representation-based Audio Countermeasure via Embedding dynamics) is een framework dat partijdige deepfakes detecteert door de dynamiek van de inbeddingen (embeddings) van bevroren spraakfoundationmodellen te analyseren. Het vereist geen training, geen gelabelde data en geen architecturale wijzigingen.

Het proces verloopt als volgt:

Inbeddingsextractie:
- Een ruwe geluidsopname wordt door een bevroren (niet-getrainde) spraakfoundationmodel (zoals WavLM, HuBERT, of Whisper) gevoerd.
- Er worden frame-voor-frame inbeddingen gegenereerd (bijv. 50 Hz).
Normalisatie:
- Om variaties in volume en opnamekwaliteit te elimineren, worden de inbeddingen geprojecteerd op de eenheids-hypersfeer ( $L2$ -normalisatie). Hierdoor meten de volgende stappen puur de richtingsverandering en niet de grootte van het signaal.
Eerste-orde Trajectdynamiek (First-Order Dynamics):
- De kern van TRACE is het berekenen van de koordafstand (chord distance) tussen opeenvolgende genormaliseerde inbeddingen op de hypersfeer.
- Hypothese: Authentieke spraak volgt een gladde, langzaam veranderende trajectorie in de inbeddingsruimte. Een "splice boundary" (de overgang tussen echt en nep) veroorzaakt echter een abrupte onderbreking in deze continuïteit, wat resulteert in een plotselinge piek in de afstand tussen frames.
- Dit wordt gemeten als $F1_t = \|\hat{e}_{t+1} - \hat{e}_t\|_2$ .
Statistische Aggregatie:
- De reeks van frame-afstanden wordt samengevat tot een enkele detectiescore via verschillende statistieken:
  - Globale statistieken: Gemiddelde, standaarddeviatie en RMS (effectief voor lange nep-segmenten).
  - Sliding-window maximum: Zoekt naar de meest afwijkende lokale vensters (effectief voor korte nep-segmenten).
  - Multi-scale afgeleiden: Analyseert veranderingen in de snelheid van de trajectorie.
  - Richtingsstatistieken: Meet de hoekverandering tussen bewegingsvectoren (onafhankelijk van grootte).
Score Combinatie en Kalibratie:
- Verschillende statistieken worden gewogen en lineair gefuseerd. De gewichten worden bepaald door een grid search op een ontwikkelingsset (zonder gradiëntupdates).
- De richting van de score (hoge score = nep of lage score = nep) wordt automatisch bepaald op basis van de gemiddelde scores van authentieke en nep-voorbeelden in de kalibratieset.

Belangrijkste Bijdragen

Identificatie van een nieuw signaal: Het paper toont aan dat de overgangssnelheid van frame-inbeddingen in bevroren foundationmodellen een robuust forensisch signaal is dat splice-grenzen detecteert.
TRACE Framework: Een volledig training-vrije methode die werkt op bestaande, bevroren modellen zonder enige aanpassing of gelabelde data.
Generalisatie: Het bewijst dat deze methode werkt over verschillende talen (Engels en Mandarijn), verschillende synthese-methoden en zelfs onbekende generatieve modellen (zoals die van LLM's).

Resultaten

TRACE is geëvalueerd op vier benchmarks met twee talen en zes verschillende spraakfoundationmodellen:

PartialSpoof (Engels): TRACE bereikte een EER van 8,08%. Dit is concurrerend met geavanceerde, toezicht-gebaseerde (supervised) baselines die frame-voor-frame annotaties vereisen, en overtreft diverse andere methoden zonder enige training.
LlamaPartialSpoof (Engels, LLM-gedreven): Dit is de meest uitdagende benchmark. TRACE behaalde een EER van 24,12%, wat beter is dan de toezicht-gebaseerde baseline van 24,49%, zonder enige data uit dit specifieke domein te hebben gezien.
Cross-linguale prestaties (HAD en ADD 2023, Mandarijn): TRACE behaalde respectievelijk 20,92% en 33,43% EER. Hoewel de prestaties lager zijn dan in het Engels (door complexere splice-structuren), toont het aan dat de methode taal-onafhankelijk werkt.
Cross-corpus Generalisatie: Wanneer TRACE uitsluitend op de PartialSpoof-ontwikkelset wordt gekalibreerd en direct wordt toegepast op andere datasets, behoudt het zijn effectiviteit, wat aantoont dat het signaal universeel is.

Ablatie-studies toonden aan dat:

Eerste-orde dynamiek (verandering in positie) superieur is aan tweede-orde dynamiek (verandering in snelheid).
Intermediare lagen van het model (bijv. laag 18 van WavLM) informatiever zijn dan de laatste laag, omdat de laatste laag semantische informatie de lage-frequentie akoestische discontinuïteiten onderdrukt.
Masked prediction-modellen (zoals WavLM) beter presteren dan contrastieve modellen (zoals Wav2Vec 2.0) voor deze taak.

Betekenis en Conclusie

Het paper toont aan dat training-vrije audio-forensiek een haalbare en krachtige richting is. In plaats van modellen te trainen om deepfakes te herkennen, kunnen we de intrinsieke eigenschappen van bestaande foundationmodellen gebruiken.

Robuustheid: Omdat de methode geen specifieke synthese-pijplijnen leert, is deze minder vatbaar voor overfitting en generaliseert deze beter naar toekomstige, onbekende deepfake-technieken.
Efficiëntie: Geen training betekent geen rekenkracht voor backpropagation en geen noodzaak voor grote datasets.
Toekomstperspectief: Naarmate foundationmodellen groter en krachtiger worden, zullen hun latente representaties waarschijnlijk nog rijkere forensische signalen bevatten, waardoor training-vrije benaderingen als TRACE in de toekomst nog effectiever zullen worden.

Een beperking is dat TRACE specifiek ontworpen is voor het detecteren van splice-grenzen en minder goed presteert op volledig gegenereerde (fully synthesized) opnamen, en dat de statistische combinaties nog afhankelijk zijn van een specifieke kalibratieset.