Single Microphone Own Voice Detection based on Simulated Transfer Functions for Hearing Aids

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een hoortoestel draagt. Dat is geweldig, want het maakt geluiden weer hoorbaar. Maar er is één vervelend ding: je eigen stem.

Wanneer je praat, hoor je je eigen stem niet alleen via je oren, maar ook via trillingen in je schedel. Voor een hoortoestel is dit een raadsel. Het apparaat hoort je stem heel luid en "dichtbij", maar het kan niet goed onderscheiden of dat geluid van jou komt of van iemand die vlak naast je staat. Het resultaat? Je eigen stem klinkt vaak als een brommende, onnatuurlijke echo die je ergert.

De onderzoekers van dit paper hebben een slimme oplossing bedacht om dit op te lossen, zonder dat het hoortoestel duurder of groter hoeft te worden. Hier is hoe het werkt, vertaald in een simpel verhaal:

1. Het Probleem: De "Eén-Oor" Uitdaging

De meeste moderne hoortoestellen hebben twee microfoons (links en rechts) om richting te horen. Maar veel mensen hebben maar één hoortoestel nodig, of het apparaat is zo klein dat er maar één microfoon in past.

De uitdaging: Hoe weet een slim computerchip met één microfoon of het geluid dat hij hoort van jou komt (je eigen stem) of van de buren (iemand anders)?
De oude manier: Meerdere microfoons of dure sensoren in het bot. Dat is duur en complex.

2. De Oplossing: Een Virtuele "Sound-Proof" Studio

De onderzoekers zeggen: "Laten we de computer niet laten luisteren naar echte mensen, maar laten we hem eerst leren in een virtuele studio."

Ze hebben een digitale simulatie gemaakt die werkt als een virtuele realiteit-bril voor geluid.

De Rigid Sphere (De Stalen Bal): Eerst simuleren ze een heel simpel hoofd: een perfecte, harde bal. Ze laten een stem klinken vanuit de mond van de bal (jij) en vanuit een punt ergens in de ruimte (de buren).
De Digitale Trillingen: Ze berekenen precies hoe het geluid door de lucht reist en tegen die bal aanbotst voordat het de microfoon bereikt. Dit noemen ze een Acoustic Transfer Function (ATF). Het is als een digitale vingerafdruk van hoe geluid zich gedraagt rondom een hoofd.

3. De Leerstrategie: Van Simpel naar Complex

Je kunt een kind niet direct laten leren om een complex schilderij te maken; je begint met potloodtekeningen. Dezelfde logica gebruiken ze hier:

Fase 1: De Potloodtekeningen (Analytisch): Ze trainen het model eerst op de simpele "stalen bal". Het leert het basisprincipe: "Als het geluid uit de mond van de bal komt, klinkt het anders dan als het van buiten komt."
Fase 2: De Gedetailleerde Tekening (Numeriek): Dan maken ze het moeilijker. Ze vervangen de stalen bal door een 3D-model van een menselijk hoofd en torso (inclusief schouders en nek). Dit model is zo realistisch dat het de geluidsgolven net zo buigt en weerkaatst als een echt mens.
De "Data Augmentatie" (Het Koken): Ze nemen duizenden echte stemopnames (van mensen die zingen of praten) en "spelen" deze virtueel door hun digitale hoofd. Zo leert de computer: "Oh, als ik dit geluid hoor met deze specifieke echo en die specifieke vervorming, dan is het waarschijnlijk mijn eigen stem."

4. De "Super-Intelligente" Detector

Ze gebruiken een heel slim type computerprogramma (een Transformer, vergelijkbaar met de technologie achter moderne vertaalapps).

Dit programma kijkt niet alleen naar hoe luid het geluid is (want je kunt ook hard praten als je een ander bent).
Het kijkt naar de ruimtelijke signatuur: Hoe klinkt het geluid precies op het moment dat het de microfoon raakt?
- Jouw stem: Klinkt als een "dichtbij" geluid met een specifieke, steile afname in hoge tonen (door je hoofd en mond).
- Iemand anders: Klinkt als een geluid dat van ver komt en anders om je hoofd heen buigt.

5. De Proef in de Wereld (De "Realiteitstest")

Het mooiste deel is wat ze daarna deden. Ze namen hun model dat alleen op virtuele data was getraind en stopten het in een echt hoortoestel (een prototype).

Ze lieten echte mensen praten in een echte kamer.
Het resultaat: Het model, dat nooit een echt mens had gehoord, herkende de eigen stem met 80% nauwkeurigheid.
Ze hebben zelfs een kleine "bril" op het model gezet (een aanpassing) om de kleine verschillen tussen de virtuele studio en de echte wereld te compenseren.

Waarom is dit geweldig?

Stel je voor dat je een piloot traint. In plaats van hem duizenden euro's te laten betalen voor echte vluchten in een vliegtuig, train je hem eerst in een vluchtsimulator.

Kost: De simulator is goedkoop en veilig.
Veiligheid: Je kunt duizenden situaties oefenen (storm, motorkap, etc.) zonder risico.
Resultaat: Als de piloot dan echt vliegt, kent hij de regels en reacties al.

De onderzoekers hebben precies dit gedaan voor hoortoestellen. Ze hebben een geluidssimulator gebouwd die het model heeft getraind om je eigen stem te herkennen, zonder dat ze duizenden mensen hoefden te laten praten in dure laboratoria.

Kort samengevat:
Ze hebben een slimme computer geleerd om het verschil tussen "jij" en "de buren" te horen, door hem eerst te laten oefenen in een digitale wereld van virtuele hoofden. Dit maakt het mogelijk om goedkopere, kleinere hoortoestellen te maken die je eigen stem automatisch dempen zodat je comfortabel kunt praten, zonder dat het apparaat onnodig luidruchtig klinkt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoortjes spelen een cruciale rol bij het verbeteren van de spraakverstaanbaarheid, maar gebruikers ervaren vaak dat hun eigen stem te luid of onnatuurlijk klinkt wanneer het apparaat actief is. Om dit te compenseren, verlagen audiologen vaak de versterking, wat ten koste gaat van de helderheid van externe spraak. Een robuuste methode om de eigen stem van de drager te detecteren (Own Voice Detection - OVD) is essentieel voor gepersonaliseerde aanpassingen.

Bestaande oplossingen vertrouwen vaak op:

Meerdere microfoons: Dit verhoogt de hardwarekosten, het stroomverbruik en de kalibratiecomplexiteit, wat het minder geschikt maakt voor instapmodellen of gebruikers met unilateraal gehoorverlies.
Extra sensoren: Bijvoorbeeld botgeleidingsensoren, die beperkt zijn door een laag signaal-ruisverhouding (SNR) en fysiek contact vereisen.
Bestaande ML-methoden: Deze focussen vaak op stemkarakteristieken (die veel verwerkingstijd kosten) of vereisen kostbare, specifieke transferfunctie-metingen voor elk apparaat en anatomie.

Het doel van dit paper is een enkel-microfoon OVD-oplossing te ontwikkelen die kostenefficiënt is, geen extra sensoren vereist, en generaliseert naar verschillende anatomieën zonder uitgebreide fysieke metingen.

Methodologie

De auteurs stellen een datagedreven aanpak voor die gebruikmaakt van gesimuleerde akoestische transferfuncties (ATF's) om een machine learning-model te trainen. De kern van de methode is het benutten van de ruimtelijke verschillen in de geluidsgolfpaden tussen de eigen stem (nabijveld) en externe sprekers (verveld).

1. Data Generatie en Simulatie Pipeline:
Om de noodzaak van fysieke metingen te omzeilen, wordt een twee-traps simulatieproces gebruikt om de trainingsdata te verrijken (data augmentation):

Analytische benadering: Eerst worden ATF's gegenereerd op basis van vereenvoudigde geometrieën (een stijve bol met een trillend sferisch kapje voor de mond). Dit zorgt voor een grote diversiteit aan ruimtelijke configuraties (hoeken, afstanden, hoofdstralen) met gecontroleerde variatie.
Numerieke simulatie: Vervolgens worden ATF's gegenereerd met behulp van Mesh2HRTF (een combinatie van ML-FMM en BEM). Hierbij wordt de geometrie verfijnd van een stijve bol naar een menselijk hoofd en uiteindelijk naar een hoofd-en-torsomodel. Dit introduceert realistischere anatomische details en diffractie-effecten.

2. Model Architectuur:

Het probleem wordt geformuleerd als een binair classificatieprobleem op segmentniveau (eigen stem vs. externe spreker).
Er wordt een Transformer-based classifier (specifiek een Conformer-encoder) gebruikt.
De invoer bestaat uit log-mel spectrogrammen afgeleid van de STFT van de audio, die zijn bewerkt met de gesimuleerde ATF's.
Een temporal gate pooling mechanisme aggregeert frame-level features tot één beslissing per segment, wat robuustheid biedt tegen fonetische variatie.

3. Trainingsstrategie:

Progressieve aanpassing: Het model wordt eerst getraind op de analytische (vereenvoudigde) data om een basisbegrip van geluidvoortplanting te krijgen.
Fine-tuning: Vervolgens wordt het model gefine-tuned op de numeriek gesimuleerde data, waarbij de complexiteit stapsgewijs toeneemt (bol $\to$ hoofd $\to$ hoofd-en-torsomodel).
Ruisbestendigheid: De training omvat ook achtergrondruis (muziek, spraak, omgevingsgeluid) uit het MUSAN-dataset op verschillende SNR-niveaus.

4. Real-world Adaptatie:
Om de "domain gap" tussen gesimuleerde data en echte hoortoestel-opnames te overbruggen, wordt een lichtgewicht test-tijd feature compensatie toegepast. Hierbij worden de statistieken (gemiddelde en variantie) van de echte data afgestemd op de gesimuleerde trainingsdata zonder het model opnieuw te hoeven finetunen.

Kernbijdragen

Simulatie-gedreven OVD: Het is de eerste studie die zowel analytische als numerieke ATF's gebruikt om ML-modellen te trainen voor enkel-microfoon OVD, waardoor de afhankelijkheid van kostbare fysieke metingen wordt opgeheven.
Hiërarchische Adaptatie: Een bewezen strategie waarbij het model eerst leert op vereenvoudigde fysieke modellen en vervolgens wordt verfijnd op gedetailleerde anatomische modellen, wat leidt tot betere generalisatie.
Generalisatie naar de realiteit: Het aantonen dat een model getraind op volledig gesimuleerde data, na toepassing van eenvoudige feature-compensatie, effectief werkt op echte hoortoestel-opnames.
Ruimtelijke Cues: Het bewijs dat ruimtelijke akoestische patronen (via ATF's) voldoende informatie bevatten om eigen stem van externe spraak te onderscheiden, zonder afhankelijk te zijn van stemherkenning of amplitudeverschillen.

Resultaten

Gesimuleerde Data: Het model bereikte een nauwkeurigheid van 95,52% op testdata met een hoofd-en-torsomodel (bij 15-seconde uitspraken). Zelfs bij korte uitspraken van 1 seconde bleef de nauwkeurigheid hoog op 90,02%.
Ruisbestendigheid: Het model toonde sterke prestaties onder verschillende ruisomstandigheden (MUSAN dataset), met een geleidelijke afname van nauwkeurigheid bij lagere SNR-waarden, maar bleef robuust.
Echte Hoortoestel-opnames: Zonder finetuning op echte data, maar met toepassing van de feature-compensatie, bereikte het model 80% nauwkeurigheid op opnames van een hoortoestel-prototype. De AUC (Area Under Curve) was 0,80 voor label-vrije compensatie, vergeleken met 0,96 voor de gesimuleerde testset.
Vergelijking met Baselines: In vergelijking met een bestaande ResNet-baseline (gebaseerd op gemeten ATF's) presteerde het voorgestelde Conformer-model beter in het onderscheiden van externe sprekers en had het een hogere algehele nauwkeurigheid, ondanks dat het model kleiner was (307k parameters vs 238k, maar met betere prestaties door pre-training).
Ablatie Studies: Het verwijderen van de ATF-cues resulteerde in een instorting van de nauwkeurigheid tot ~50%, wat bevestigt dat ruimtelijke informatie de sleutel is. Het model bleek niet afhankelijk te zijn van louter volumeverschillen.

Betekenis en Toekomstperspectief

Dit werk markeert een belangrijke stap in de ontwikkeling van betaalbare en effectieve hoortoestellen. Door te vertrouwen op gesimuleerde fysica in plaats van dure metingen, kunnen fabrikanten OVD-functies implementeren in instapmodellen en voor gebruikers met unilateraal gehoorverlies.

De studie toont aan dat offline segment-level detectie haalbaar is en dat de overgang naar real-time, causale implementatie met lage latentie een veelbelovende richting is voor toekomstig onderzoek. De methode biedt een schaalbare oplossing om de gebruikerscomfort en spraakverstaanbaarheid in hoortoestellen aanzienlijk te verbeteren zonder de hardwarecomplexiteit te verhogen.

Single Microphone Own Voice Detection based on Simulated Transfer Functions for Hearing Aids

1. Het Probleem: De "Eén-Oor" Uitdaging

2. De Oplossing: Een Virtuele "Sound-Proof" Studio

3. De Leerstrategie: Van Simpel naar Complex

4. De "Super-Intelligente" Detector

5. De Proef in de Wereld (De "Realiteitstest")

Waarom is dit geweldig?

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models