NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superkrachtige AI-assistent bij je hebt, altijd en overal. Je wilt haar iets fluisteren, een geheim delen of gewoon een idee opschrijven terwijl je in een drukke trein zit, zonder dat de mensen om je heen iets horen.

Helaas is dit tot nu toe heel lastig. Als je hardop spreekt, horen anderen mee. Als je fluistert, verdrinkt je stem in het lawaai van de omgeving. En als je probeert te "stille praten" (alleen je mond bewegen zonder geluid), moeten er vaak dure camera's of sensoren op je gezicht, wat niet zo handig of discreet is.

NasoVoce is de oplossing die de onderzoekers van Sony CSL hebben bedacht. Het is een slimme, onopvallende manier om met je AI te praten, zelfs als je fluistert en het om je heen een chaos is.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Locatie: Het "Geheime Hoorpunt" op je Neus

De naam NasoVoce komt van het Italiaanse woord voor neus en stem. Het apparaatje zit op de neusbrug van een bril (zoals slimme brillen die je misschien wel eens ziet).

De Metafoor: Stel je voor dat je neusbrug een geheime tunnel is die rechtstreeks naar je mond leidt. Omdat het zo dicht bij je mond zit, vangt het twee soorten "boodschappen" tegelijk op:
1. De luchtboodschap: Het geluid dat door de lucht reist (wat een microfoon doet).
2. De trillingsboodschap: De trillingen die door je huid en bot gaan (wat een trillings-sensor doet).

2. Het Probleem: Twee Slechte Boodschappers

Normaal gesproken hebben we te maken met twee problemen:

De Microfoon (De Luie Luisteraar): Deze hoort heel goed als het stil is, maar als er een trein voorbijrijdt of iemand naast je praat, raakt hij in de war. Hij hoort alleen maar lawaai.
De Trillings-sensor (De Stevige, maar Dofe Luisteraar): Deze voelt de trillingen van je stem heel goed, zelfs als het buiten stormt. Maar omdat het via je huid gaat, klinkt je stem alsof je onder water spreekt: het is wat dof en minder duidelijk.

3. De Oplossing: Het "Tandem-Team"

NasoVoce combineert deze twee tot één superkrachtig team.

De Analogie: Denk aan een paar dansers.
- De microfoon is de danser die de elegante bewegingen ziet (de klank), maar die snel struikelt als de vloer (de omgeving) onstabiel is.
- De trillings-sensor is de danser die de grond voelt en nooit struikelt, maar die de elegante bewegingen niet goed kan zien.
- NasoVoce is de choreograaf die ze samenbrengt. Als het lawaaiig is, laat hij de trillings-danser de leiding nemen. Als het stil is, laat hij de microfoon-danser de leiding nemen. Samen maken ze een perfecte dans: een stem die helder klinkt (door de microfoon) maar niet verstoord wordt door lawaai (door de trillings-sensor).

4. Waarom is dit speciaal? (Het Fluister-Geheim)

De echte kracht van NasoVoce zit in het fluisteren.

Normale microfoons op je oren (zoals AirPods) zijn zo goed in lawaai onderdrukken dat ze je fluisterstem soms per ongeluk ook onderdrukken, omdat ze denken dat het achtergrondruis is.
De trillings-sensor op je neus voelt echter de subtiele trillingen van je fluisterstem, zelfs als je mond dicht is of als je je hand ervoor houdt (voor extra privacy). Het systeem kan dus horen wat je fluistert, terwijl de mensen om je heen niets horen.

5. De Resultaten in het Dagelijks Leven

De onderzoekers hebben dit getest in echte situaties: in een drukke koffiezaak, op een drukke straat, terwijl je loopt en in een trein.

Zonder NasoVoce: De AI hoort alleen maar "rauw" of begrijpt niets.
Met NasoVoce: De AI hoort je stem kristalhelder, alsof je in een stil kantoor zit, terwijl je eigenlijk in een lawaaierige trein zit.

Samenvattend

NasoVoce is als een onzichtbare tolk die op je neus zit. Hij luistert naar wat je zegt (of fluistert) via twee verschillende kanalen, combineert de beste delen van beide, en zorgt dat je AI-assistent je altijd verstaat, ongeacht hoe luid de wereld om je heen is. Het maakt discreet praten met computers eindelijk mogelijk, zonder dat je er een masker voor hoeft te dragen of een camera op je gezicht hoeft te hebben.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction" in het Nederlands.

Probleemstelling

De groeiende integratie van generatieve AI in het dagelijks leven vereist een "altijd-beschikbare" spraakinterface. Bestaande methoden voor stilte- of fluisterende spraakinteractie hebben echter moeite om een evenwicht te vinden tussen vier cruciale eisen:

Draagbaarheid: Het apparaat moet onopvallend zijn en comfortabel voor continu gebruik (bijv. geen oordopjes die ongemak veroorzaken of camera's die privacy schenden).
Stilte: De spraak moet niet hoorbaar zijn voor anderen om privacy te waarborgen en sociale acceptatie te bevorderen.
Ruisbestendigheid: De interface moet nauwkeurig blijven werken in omgevingsruis en niet verward worden met nabijgelegen spraak.
Woordenschat: Het systeem moet een open woordenschat ondersteunen (niet beperkt tot commando's) en geschikt zijn voor natuurlijke dialogen.

Bestaande oplossingen zoals lippenlezen (privacyproblemen, afhankelijk van licht), botgeleidingssensoren op de kaak (fysieke ambiguïteit) of microfoons met ruisonderdrukking (zoals AirPods Pro) falen vaak bij het detecteren van fluisterende spraak, omdat fluisteren een lage geluidsdruk heeft en door standaard algoritmen vaak als achtergrondruis wordt gefilterd.

Methodologie

1. Hardware-Configuratie (NasoVoce)
De auteurs presenteren NasoVoce, een interface die is gemonteerd op de neusbrug (specifiek op de neuspaden van een slimme bril). Het systeem integreert twee sensoren:

MEMS-microfoon (Syntiant SPH0141LM4H-1): Vangt luchtgeleide geluiden op (akoestisch signaal). Dit levert hoge kwaliteit op maar is zeer gevoelig voor omgevingsruis.
MEMS-vibratiesensor (Syntiant V2S200D): Een trillingsensor die bot- en huidgeleide signalen vangt. Deze is zeer robuust tegen omgevingsruis maar levert een signaal van lagere kwaliteit op.

De locatie op de neusbrug is strategisch gekozen omdat deze dicht bij de mond en neusholte ligt. Dit maakt het mogelijk om zowel luchtgeleide geluiden (voor normale en fluisterende spraak) als trillingen van de neusbotten op te vangen. In tegenstelling tot keelmicrofoons die vooral op stembandtrillingen (gevoede signalen) vertrouwen, kan de neusbrug ook de aerodynamische turbulentie van on-gevoede fluisterende spraak detecteren.

2. Dataverzameling
Er werd een dataset samengesteld met 45 deelnemers die ongeveer 104 uur aan tekst voorlezen. De opnames werden simultaan gedaan met de microfoon en de vibratiesensor. Om ruisbestendigheid te testen, werd schone spraak gemengd met ruis uit de DEMAND-dataset (RMS-niveaus van -10 dB tot 10 dB).

3. Modelarchitectuur: D-DCCRN
Om de twee complementaire signalen te fusioneren, ontwikkelden de auteurs een nieuw diep leermodel genaamd D-DCCRN (Dual-DCCRN), een uitbreiding van het bestaande DCCRN-model (Deep Complex Convolution Recurrent Network).

Architectuur: Het model verwerkt zowel de complexe (reële en imaginaire) componenten van het microfoonsignaal als die van het vibratiesignaal. Het gebruikt complexe convolutie-encoder/decoder lagen en LSTM-netwerken om zowel amplitude als fase-informatie te behouden.
Fase-informatie: Het behoud van fase-informatie is cruciaal omdat de fasestructuur van nabijgelegen fluister-turbulentie (gevangen door de vibratiesensor) sterk verschilt van verre omgevingsruis.
Trainingsstrategie: Het model wordt getraind met twee verliesfuncties:
1. Audio-versterkingsverlies ( $L_{ae}$ ): Minimaliseert het verschil tussen het versterkte signaal en het schone referentiesignaal (MSE en SI-SDR).
2. Kennisdistillatie-verlies ( $L_{kd}$ ): Gebruikt OpenAI Whisper Large-v2 als een "leraar". Het doel is om het versterkte signaal van het D-DCCRN-model zo te trainen dat de ASR-uitkomsten (herkenningsresultaten) overeenkomen met die van schone audio. Dit omvat zowel een "hard" verlies (token-niveau) als een "soft" verlies (distributie-niveau).

Belangrijkste Bijdragen

Nieuwe Hardware-Interface: Een onopvallende, neusgemonteerde sensorconfiguratie die zowel lucht- als bot/huidgeleide signalen combineert, specifiek ontworpen voor fluisterende spraak.
D-DCCRN Model: Een deep learning-architectuur die dual-input audio-versterking mogelijk maakt, waarbij fase-informatie wordt benut om fluisterende spraak van ruis te scheiden.
Validatie van Fluisterende Spraak: Het paper toont aan dat het combineren van deze sensoren de beperkingen van bestaande systemen (zoals AirPods Pro) overwint die fluisterende spraak niet kunnen onderscheiden van achtergrondruis.

Resultaten

De evaluatie omvatte ASR-nauwkeurigheid (WER/CER), objectieve kwaliteitsmetingen (PESQ, STOI) en subjectieve beoordelingen (MUSHRA).

ASR-nauwkeurigheid (WER/CER):
- Bij toenemende ruis neemt de nauwkeurigheid van de microfoon (Mic) alleen sterk af.
- De vibratiesensor (Vib) alleen is robuust, maar heeft een lagere nauwkeurigheid voor fluisterende spraak dan voor normale spraak.
- Het gefuseerde signaal (Enhanced) presteert consistent beter dan alleen Vib voor fluisterende spraak en overtreft de microfoon bij ruisniveaus van 0 dB en hoger.
Geluidskwaliteit (PESQ & STOI):
- Het versterkte signaal presteert op alle ruisniveaus beter dan de ruwe microfooninput.
- Bij extreem hoge ruis (10 dB) presteert de vibratiesensor alleen iets beter dan het gefuseerde model, wat suggereert dat de microfooninput in deze extreme omstandigheden meer ruis dan nuttige informatie toevoegt.
Subjectieve Beoordeling (MUSHRA):
- Gebruikers beoordeelden het versterkte signaal als significant beter dan de ruwe microfooninput. Het bleef superieur aan de vibratiesensor tot het ruisniveau 0 dB bereikte.
Real-world Test:
- In tests in een café, op een drukke weg, wandelend en in een trein, slaagde NasoVoce erin om fluisterende spraak te detecteren terwijl de "Voice Isolation" van Apple AirPods Pro 2 de fluisterende spraak volledig onderdrukte (verward met achtergrondruis).

Betekenis en Conclusie

NasoVoce demonstreert de haalbaarheid van een praktisch, altijd-beschikbaar interface voor discrete AI-gesprekken. De kerninnovatie ligt in het gebruik van de neusbrug als meetpunt, wat uniek is voor het vangen van fluisterende spraak via bot- en huidgeleiding, en de dual-sensor fusie die de zwaktes van de ene sensor (ruisgevoeligheid) compenseert met de sterktes van de andere (ruisbestendigheid).

Het paper stelt dat voor een robuust systeem in de echte wereld een adaptieve fusiestrategie nodig is. Bij extreme ruis zou het systeem kunnen overschakelen naar alleen de vibratiesensor, terwijl bij lagere ruisniveaus de microfoon wordt gebruikt voor hogere kwaliteit. Deze technologie opent de weg voor continue, privacy-bewuste interactie met AI-assistenten in openbare ruimten zonder dat de gebruiker hard hoeft te praten of onopvallende hardware hoeft te dragen die de omgeving blokkeert.

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

1. De Locatie: Het "Geheime Hoorpunt" op je Neus

2. Het Probleem: Twee Slechte Boodschappers

3. De Oplossing: Het "Tandem-Team"

4. Waarom is dit speciaal? (Het Fluister-Geheim)

5. De Resultaten in het Dagelijks Leven

Samenvattend

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem