Controllable Accent Normalization via Discrete Diffusion

Dit paper introduceert DLM-AN, een systeem op basis van discrete diffusie dat controleerbare accentnormalisatie mogelijk maakt door het selectief hergebruiken van brontokens om de accentsterkte aan te passen en de duur aan te passen voor een natuurlijk ritme.

Qibing Bai, Yuhan Du, Tom Ko, Shuai Wang, Yannan Wang, Haizhou Li

Gepubliceerd 2026-03-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

DLM-AN: De "Accent-Regelaar" voor Spraak

Stel je voor dat je een radio hebt die je stem kan nabootsen, maar dan met een specifiek accent. Soms wil je dat iemand perfect Nederlands spreekt (zoals een nieuwslezer), maar soms wil je dat ze een beetje dat buitenlandse accent behouden, bijvoorbeeld omdat ze een personage in een film spelen die uit een ander land komt.

Tot nu toe waren de technologieën hiervoor als een lichtschakelaar: ofwel ging het licht helemaal uit (geen accent meer), ofwel stond het helemaal aan (volledig accent). Er was geen dimmer.

Dit nieuwe onderzoek, genaamd DLM-AN, introduceert precies zo'n dimmer. Het is een slim systeem dat kan beslissen hoeveel van het originele accent je wilt behouden, van "volledig native" tot "bijna hetzelfde als het origineel".

Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het Bouwstenen-Principe (De "Discrete Tokens")

Stel je voor dat spraak niet als een continue stroom van geluid is, maar als een reeks Lego-blokjes. Elk blokje staat voor een klein stukje geluid (een klank).

  • Het systeem pakt eerst de originele stem (met het accent) en zet die om in deze Lego-blokjes.
  • Vervolgens kijkt het systeem naar een "native" (moedertaal) versie van dezelfde zin.

2. De Slimme Zoeker (De "Common Token Predictor")

Hier komt de magie van de CTP (Common Token Predictor) om de hoek kijken. Stel je voor dat je twee zinnen vergelijkt: één met een Frans accent en één in perfect Engels.

  • Sommige woorden klinken in beide versies bijna hetzelfde (bijvoorbeeld "de" of "en"). Deze zijn als gouden blokjes.
  • Andere woorden klinken heel anders door het accent. Deze zijn als rode blokjes.

De CTP is een slimme robot die door de Lego-bak loopt en zegt: "Hey, dit blokje klinkt in het origineel al goed genoeg als een native woord. Laten we dat blokje behouden!"

3. De Dimmer voor het Accent

Dit is het belangrijkste deel. Je kunt nu een knop draaien:

  • Knop helemaal naar links (Geen accent): De robot gooit alle originele blokjes weg en bouwt de zin helemaal opnieuw op, alsof hij het voor het eerst leert. Het resultaat klinkt als een native spreker.
  • Knop helemaal naar rechts (Volledig accent): De robot gebruikt alle originele blokjes. Het resultaat klinkt precies zoals de spreker oorspronkelijk was.
  • Knop ergens in het midden: De robot behoudt alleen de "gouden blokjes" (de woorden die al goed klinken) en bouwt de rest van de zin opnieuw op. Het resultaat is een mix: de zin is begrijpelijk en klinkt natuurlijker, maar je hoort nog net een beetje van het originele accent.

Dit geeft gebruikers controle. Je kunt een taalstudent helpen door het accent langzaam te verminderen, of een acteur helpen die een rol moet spelen met een zacht accent.

4. Het Ritme (De "Duur-Regelaar")

Soms spreken mensen met een accent sneller of langzamer dan native sprekers. Het systeem heeft ook een tweede knop: de ritme-regelaar.
Stel je voor dat je een liedje hebt. Soms wil je dat het liedje net zo lang duurt als het origineel, en soms wil je dat het iets sneller of langzamer wordt. Dit systeem past automatisch de lengte van de zinnen aan, zodat het ritme natuurlijk klinkt, of je nu het accent volledig verwijdert of niet.

Waarom is dit zo goed?

In tests met mensen uit verschillende landen (zoals Chinees, Indiaans, Spaans) die Engels spraken, bleek dit systeem:

  1. Beter begrijpelijk: De woorden werden minder vaak verkeerd verstaan door computers (een lagere "foutenratio").
  2. Natuurlijker: Het klinkt minder als een robot dan eerdere systemen.
  3. Flexibel: Het is de eerste keer dat je het accent kunt "dimmen" in plaats van alleen aan of uit te zetten.

Kortom: DLM-AN is als een slimme geluidstechnicus die niet alleen je accent kan weghalen, maar die je ook laat kiezen hoeveel van je "eigen geluid" je wilt behouden, terwijl hij ervoor zorgt dat het ritme perfect blijft.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →