Learning-free L2-Accented Speech Generation using Phonological Rules

Deze paper introduceert een leermethode-vrij framework voor het genereren van Engels met een Spaans of Indiaas accent door fonologische regels toe te passen op een meertalige TTS-model, waardoor accenten op phonemisch niveau kunnen worden gemanipuleerd zonder grote datasets.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een stemacteur hebt die perfect Amerikaans Engels spreekt. Hij is zo goed, dat hij elke tekst vloeiend kan voorlezen. Maar wat als je diezelfde acteur wilt laten klinken alsof hij uit Spanje of India komt, zonder dat je duizenden uren moet opnemen met echte Spaanse of Indiase sprekers?

Dat is precies het probleem dat deze wetenschappers van de Universiteit van Zuid-Californië hebben opgelost. Ze hebben een slimme, "leer-vrije" manier bedacht om een stem te laten klinken als een niet-native spreker, zonder extra training.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Eén-Size-Fits-All" Stem

Tot nu toe moesten computersystemen die tekst omzetten in spraak (TTS) worden getraind met enorme hoeveelheden opnames van mensen met een bepaald accent. Als je een Spaans accent wilde, moest je duizenden uren Spaans-Engels opnemen. Dat is duur, tijdrovend en vaak onmogelijk.

2. De oplossing: De "Receptuur" (Fonologische Regels)

In plaats van de computer te laten leren door duizenden voorbeelden te beluisteren, hebben de onderzoekers een recept geschreven.

Stel je voor dat je een cake hebt (de Amerikaanse stem). Je wilt er een chocoladecake van maken (Spaans accent) of een kokosnootcake (Indiase accent).

  • De oude manier: Je zou duizenden andere bakkers moeten vragen om hun recepten te delen en die te kopiëren.
  • De nieuwe manier: Je neemt je basisrecept en past een paar simpele regels toe: "Vervang de suiker door honing" of "Voeg extra kaneel toe".

In dit onderzoek zijn die regels fonologische regels. Dat zijn simpele instructies over hoe je klanken moet veranderen:

  • Voor het Spaanse accent: Als je de letter 'v' hoort, maak er een 'b' van. Als je een 'th' hoort, maak er een 's' van. Voeg soms een extra klinker toe tussen medeklinkers.
  • Voor het Indiase accent: Verander bepaalde 't'-klanken in een diepere, "rolle" klank.

3. De Magische Motor: De Meertalige Stem

De onderzoekers gebruiken een bestaande, zeer slimme "meertalige stemmotor" (een AI-model). Deze motor is al zo getraind dat hij weet hoe een Spaanse of Indiase stem over het algemeen klinkt (dit noemen ze een "speaker embedding").

Het geheim zit in de combinatie:

  1. Je geeft de motor de tekst in Amerikaans Engels, maar dan aangepast met je recept (de fonologische regels).
  2. Je zegt tegen de motor: "Spreek dit alsof je een Spanjaard bent" (of een Indiër).

De motor denkt dan: "Oké, ik heb de tekst die klinkt als een Spanjaard, en ik heb de instructie om als een Spanjaard te klinken." Het resultaat is een stem die perfect klinkt als een Spanjaard die Engels spreekt, zonder dat de AI ooit een echte Spaanse spreker heeft gehoord tijdens het trainen.

4. Het Ritme: De Danspas

Een belangrijk onderdeel van een accent is niet alleen welke klanken je maakt, maar ook hoe je ze in de tijd plaatst.

  • Engels is een taal waar de nadruk op bepaalde lettergrepen ligt (stress-timed), alsof je een dansstap maakt: TAP-tap-TAP-tap.
  • Talen zoals Hindi of Spaans zijn vaak meer op gelijke tijdsintervallen gebaseerd (syllable-timed), alsof je een rechte lijn loopt: tap-tap-tap-tap.

De onderzoekers hebben ontdekt dat als je alleen de klanken aanpast, het nog niet helemaal echt klinkt. Je moet ook het ritme aanpassen. Als je de timing van de Spaanse stem laat "dansen" zoals een echte Spanjaard dat zou doen, klinkt het veel geloofwaardiger.

Waarom is dit belangrijk?

  • Geen dure opnames nodig: Je hoeft geen duizenden uren op te nemen met mensen met een accent. Je kunt het "op papier" regelen met regels.
  • Meer inclusie: Wereldwijd spreken er drie keer zoveel mensen Engels als tweede taal dan als moedertaal. Deze technologie zorgt ervoor dat computerspraken eindelijk klinkt zoals de echte wereld, niet alleen zoals Hollywood.
  • Controle: Je kunt precies kiezen hoe sterk het accent moet zijn. Wil je een heel lichte Spaanse klank of een heel sterke? Je schuift gewoon aan de regels.

Kortom: Ze hebben een slimme "rekenmachine" bedacht die een Amerikaanse stem omtovert in een Spaanse of Indiase stem, puur door de klanken en het ritme op een slimme manier aan te passen, zonder dat de computer ooit een echte mens met dat accent heeft moeten horen om het te leren.