NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

Das Paper stellt NasoVoce vor, eine unauffällige, an der Nasenbrücke montierte Schnittstelle, die durch die Fusion von Mikrofon- und Vibrationssensordaten eine robuste und diskrete Spracherkennung für leise und geflüsterte Sprache in lauten Umgebungen ermöglicht.

Jun Rekimoto, Yu Nishimura, Bojian Yang

Veröffentlicht Thu, 12 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

NasoVoce: Das „Flüstern im Ohr" ohne dass es jemand hört

Stell dir vor, du möchtest mit einer künstlichen Intelligenz (KI) sprechen, während du in einer lauten U-Bahn sitzt oder in einem vollen Café. Normalerweise müsstest du laut schreien, damit die KI dich versteht, oder du würdest dich schämen, weil du private Dinge laut aussprechen musst.

Die Forscher von Sony haben eine clevere Lösung dafür entwickelt, die sie NasoVoce nennen. Das ist ein kleines Gerät, das wie eine Brille aussieht, aber die Sensoren direkt an der Nasenbrücke (dort, wo die Brille auf der Nase sitzt) trägt.

Hier ist die einfache Erklärung, wie es funktioniert, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der laute Raum und das leise Flüstern

Wenn du normal sprichst, ist deine Stimme wie ein Sprecher auf einer Bühne. In einer lauten Umgebung (wie einem Stadion) wird deine Stimme von den anderen Geräuschen übertönt.
Wenn du flüsterst, ist deine Stimme wie ein Geheimnis, das du nur ganz leise in jemandes Ohr flüsterst. Das Problem: Ein normales Mikrofon (wie in deinem Handy) hört das Flüstern kaum, weil es so leise ist und die Umgebungsgeräusche alles übertönen.

2. Die Lösung: Zwei Sinne an einem Ort

NasoVoce nutzt nicht nur ein Mikrofon, sondern zwei Sensoren gleichzeitig, die wie ein Zweiköpfiges Team arbeiten:

  • Der Mikrofon-Sensor (Das Ohr): Er fängt die Schallwellen aus der Luft auf. Er ist sehr gut darin, klare Sprache zu hören, aber er ist wie ein empfindlicher Hund, der bei jedem lauten Knall (Umgebungsgeräusch) bellt und das eigentliche Wort nicht mehr versteht.
  • Der Vibrationssensor (Das Fühlen): Dieser Sensor liegt direkt auf der Haut der Nasenbrücke. Er „fühlt" die Vibrationen, die entstehen, wenn du sprichst oder flüsterst. Diese Vibrationen wandern durch deine Knochen und Haut. Er ist wie ein robuster Fels, der von den lauten Umgebungsgeräuschen gar nichts mitbekommt, weil er die Vibrationen direkt vom Körper spürt. Aber: Die Sprache klingt durch ihn etwas „matschig" oder verzerrt, als würdest du durch Watte sprechen.

3. Der Trick: Das perfekte Mischpult

Das Geniale an NasoVoce ist, dass ein Computer-Algorithmus (eine Art digitaler DJ) diese beiden Signale mischt.

  • Er nimmt die klare, aber verrauschte Stimme vom Mikrofon.
  • Er nimmt die robuste, aber verzerrte Stimme vom Vibrationssensor.
  • Er kombiniert sie so, dass das Ergebnis klar wie eine Glocke ist, aber so robust wie ein Panzer gegen Lärm.

Selbst wenn du im lauten Zug flüsterst und deine Hand vor den Mund hältst (damit niemand mitliest oder mithört), kann das System deine Vibrationen an der Nase spüren und die Umgebungsgeräusche herausfiltern.

Warum ist das so besonders?

  • Unauffällig: Es sieht aus wie eine normale Smart-Glass-Brille. Niemand merkt, dass du mit der KI sprichst.
  • Privat: Du kannst Geheimnisse flüstern, ohne dass deine Nachbarn etwas mitbekommen.
  • Leise: Du störst niemanden, auch nicht in einer Bibliothek.
  • Vielseitig: Es funktioniert nicht nur für kurze Befehle („Licht an"), sondern für ganze Gespräche, wie man sie mit einem Freund führen würde.

Zusammenfassung in einem Bild

Stell dir vor, du bist in einem Sturm.

  • Ein normales Mikrofon ist wie jemand, der versucht, ein Gespräch zu führen, indem er gegen den Wind schreit.
  • Ein reiner Vibrationssensor ist wie jemand, der dir die Hand auf die Schulter legt und nur durch Vibrationen kommuniziert – man versteht die Worte, aber sie klingen seltsam.
  • NasoVoce ist wie ein Schutzschild, das den Sturm (den Lärm) blockiert, während es gleichzeitig die klare Stimme durch eine unsichtbare Leitung direkt in dein Ohr (bzw. die KI) leitet.

Damit wird das ständige, leise Sprechen mit einer KI endlich möglich, egal wo du bist und wie laut es um dich herum ist.