UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een taal spreekt die niet alleen met je mond wordt gemaakt, maar ook met je handen. Dit heet Gebaren Spraak (Cued Speech). Voor mensen met een gehoorbeperking is dit een wondermiddel: ze kijken naar de lippenbewegingen én de handgebaren om precies te begrijpen wat er gezegd wordt. Het is als een visuele code die helpt om de geluiden van de taal te 'ontcijferen'.

Het probleem? Computers zijn er nog niet goed in om dit visuele spektakel direct om te zetten in een natuurlijk klinkende stem. Tot nu toe.

De onderzoekers van dit paper hebben UniCUE bedacht. Laten we uitleggen wat dit is, met een paar leuke vergelijkingen.

Het oude probleem: De "Tussenstap"

Vroeger was de enige manier om van een gebarenvideo naar spraak te gaan als volgt:

De computer kijkt naar de video en schrijft op wat er gezegd wordt (zoals ondertiteling).
Een andere computer leest die tekst voor en maakt er een stem van.

Het nadeel: Dit is alsof je een brief in het Chinees vertaalt naar het Nederlands, en die Nederlandse tekst dan door een robot laat voorlezen. Als de vertaler (stap 1) één woord verkeerd begrijpt, is de hele voorlezing (stap 2) fout. Bovendien klinkt het vaak niet synchroon met de bewegingen op het scherm. Het is alsof je lippen bewegen, maar de stem komt een seconde later.

De nieuwe oplossing: UniCUE (De "Twee-in-één Superheld")

UniCUE is een slimme, nieuwe manier om dit op te lossen. In plaats van twee aparte stappen, doet het systeem alles in één keer, direct van video naar stem.

Hier zijn de drie belangrijkste onderdelen van UniCUE, uitgelegd met analogieën:

1. De "Pose-aware Visual Processor" (De Scherpziende Observer)

Stel je voor dat je een danser bekijkt. Als je alleen naar de kleding kijkt (de video), zie je veel details, maar soms is het lastig om precies te zien hoe de spieren bewegen. Als je alleen naar het skelet kijkt (de houding/pose), zie je de beweging heel duidelijk, maar mist je de sfeer.
UniCUE kijkt naar beide: de video én de bewegingslijnen van de handen en lippen. Het combineert deze twee tot één perfect beeld. Hierdoor begrijpt de computer precies hoe de handbeweging voorafgaat aan de lippenbeweging (een typisch kenmerk van gebaren spraak), waardoor het later in de tijd beter op elkaar aansluit.

2. De "Semantic Alignment Pool" (De Vertaalboer)

Dit is als een tolk die constant checkt of wat de ogen zien, overeenkomt met wat de oren horen moeten.
Het systeem leert continu: "Als deze handbeweging en deze lipvorm samen komen, betekent dat het geluid 'M'." Door dit voortdurend te oefenen, zorgt het ervoor dat de computer de betekenis van de gebaren heel nauwkeurig begrijpt voordat hij zelfs maar begint met het maken van geluid. Dit voorkomt dat er rare woorden uit de computer komen.

3. De "VisioPhonetic Adapter" (De Bruggenbouwer)

Dit is misschien wel het slimste stukje. Het is als een vertaalbureau dat een complexe visuele code (handen en lippen) omzet in een instructie die een stemmachine (de diffusiemodel) kan begrijpen.
Stel je voor dat de computer die de stem maakt, alleen werkt met muzieknoten. De adapter neemt de visuele bewegingen en zet ze om in de juiste "muzieknoten" voor de stem. Hierdoor klinkt de stem niet alleen goed, maar is hij ook perfect op maat gemaakt voor de persoon die gebaart (bijvoorbeeld een persoon met een gehoorbeperking die misschien net anders beweegt dan iemand zonder beperking).

Waarom is dit belangrijk?

De onderzoekers hebben een nieuwe database gemaakt met video's van zowel mensen met een gehoorbeperking als mensen zonder. Dit is heel belangrijk, omdat eerdere systemen alleen op "normale" mensen getraind waren en daardoor faalden bij de mensen die het systeem het hardst nodig hebben.

Het resultaat?

Nauwkeurigheid: De computer maakt veel minder fouten in wat er gezegd wordt.
Synchronisatie: De stem beweegt precies in het ritme met de lippen en handen.
Natuurlijkheid: Het klinkt als een echt mens, niet als een robot.

Samenvatting in één zin

UniCUE is als een slimme tolk die niet eerst een tekst schrijft, maar direct naar de dansende handen en lippen kijkt en daar een perfecte, natuurlijke stem uit haalt, zodat mensen met een gehoorbeperking en mensen zonder elkaar beter kunnen begrijpen.

Het is een grote stap voorwaarts in technologie die mensen met een gehoorbeperking helpt om zich makkelijker te verbinden met de wereld om hen heen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Cued Speech (CS) is een visueel fonetisch coderingssysteem dat handgebaren en mondposities gebruikt om spraakklanken te verduidelijken, wat essentieel is voor doven en slechthorenden. De taak CSV2S (Cued Speech Video-to-Speech) heeft als doel om deze video's om te zetten in verstaanbare spraaksignalen.

Bestaande oplossingen voor CSV2S hebben twee belangrijke tekortkomingen:

De "CSR + TTS" pipeline: De meeste huidige methoden combineren eerst een CS-herkenningsmodel (CSR) om video naar tekst te zetten, en gebruiken vervolgens een Tekst-naar-Spraak (TTS) systeem. Dit leidt tot foutpropagatie (fouten in de tekstherkenning verergeren de spraakoutput) en temporele misalignering tussen de visuele dynamiek van de video en de gegenereerde spraak.
Directe generatie: Het direct genereren van spraak uit video (zonder tussenstap) is moeilijk vanwege de complexe multimodale relaties (handen + lippen) en het gebrek aan grote datasets, vooral met data van slechthorende sprekers.

Daarnaast missen bestaande lip-reading modellen de cruciale handinformatie die CS biedt, wat resulteert in onvolledige fonemische representaties.

Methodologie: UniCUE

Het paper introduceert UniCUE, het eerste unified framework dat CS-herkenning (CSR) en CS-video-naar-spraak-generatie (CSV2S) combineert in één architectuur zonder tussenstap van tekst. Het systeem werkt via een gedeelde visuele verwerking en een semantische compensatiestroom.

De architectuur bestaat uit drie kerncomponenten:

Pose-aware Visual Processor:
- In plaats van alleen ruwe videoframes te gebruiken, verwerkt dit onderdeel zowel video als pose-kaarten (hand- en mondposities).
- Het fuseert deze modaliteiten in een gemengde representatie ( $Z_{mv}$ ) die fijne ruimtelijk-temporele patronen vastlegt. Dit is essentieel om het fenomeen "hand-preceding" (waarbij handgebaren de mond bewegingen voorafgaan) correct te modelleren.
Semantic Alignment Pool:
- Dit mechanisme zorgt voor een nauwkeurige mapping tussen visuele features en linguïstische semantics.
- Het gebruikt contrastief leren om de visuele features (video en pose) af te stemmen op tekstuele embeddings. Dit versterkt de semantische consistentie en helpt het model om de juiste fonemen te identificeren uit de visuele input.
VisioPhonetic Adapter (VPA):
- Deze module fungeert als een brug tussen het begrip (herkenning) en de generatie.
- Het transformeert de semantisch uitgelijnde visuele features naar een fonetisch-bewuste conditionering die compatibel is met een Latent Diffusion Model (LDM).
- Hierdoor kan het diffusiemodel spraak genereren die niet alleen temporeel gesynchroniseerd is, maar ook linguïstisch trouw aan de visuele input.

Trainingsparadigma:
Het model wordt getraind met een hybride doel:

CSR-tak: Gebruikt een autoregressieve decoder met cross-entropy loss om tekst te voorspellen (voor semantisch begrip).
CSV2S-tak: Gebruikt een conditionele denoising proces (diffusie) om spraakspectrogrammen te genereren, geleid door de features van de VPA.

Nieuwe Dataset: UniCUE-HI

Om de generalisatie naar de primaire doelgroep (slechthorenden) te verbeteren, hebben de auteurs een nieuwe dataset samengesteld: UniCUE-HI.

Bevat 11.282 video's van 14 sprekers ("cuers").
Uniek kenmerk: Inclusief data van 8 slechthorende en 6 normaalhorende sprekers.
Bestaande datasets bevatten vaak alleen normaalhorende sprekers, wat de prestaties van modellen voor slechthorenden beperkt.

Resultaten

Experiments zijn uitgevoerd op de UniCUE-HI dataset en vergeleken met State-of-the-Art (SOTA) methoden (zoals LipVoicer, CMML, en een losse CSR+TTS pipeline).

Kwantitatieve prestaties:
- UniCUE behaalde de beste resultaten op alle metrics voor zowel normaalhorende als slechthorende sprekers.
- Woordfoutpercentage (WER): Significant lager dan concurrenten (bijv. 0.205 voor normaalhorend vs. 0.374 bij een directe CSV2S baseline).
- Temporele synchronisatie: Hoogste LSE-C (vertrouwen) en laagste LSE-D (afstand) scores, wat aantoont dat de spraak perfect synchroon loopt met de video.
- Spraakkwaliteit: Superieure scores op DNSMOS (natuurlijkheid) en STOI (verstaanbaarheid).
Ablatie-studies:
- Het verwijderen van de pose-informatie of de semantische alignment pool leidde tot een sterke daling in prestaties, wat het belang van deze componenten bevestigt.
- Het gebruik van handgebaren bleek cruciaal, vooral voor slechthorende sprekers die vaak atypische mondposities hebben.
Gebruikersstudie:
- Menselijke beoordelaars gaven UniCUE significant hogere scores voor verstaanbaarheid, natuurlijkheid en synchronisatie in vergelijking met andere methoden.

Significantie en Bijdragen

Eerste Unified Framework: UniCUE is het eerste systeem dat CS-herkenning en spraakgeneratie direct koppelt, waardoor foutpropagatie wordt voorkomen en de temporele coherentie wordt verbeterd.
Semantische Compensatie: Door de "understanding" taken (herkenning) te gebruiken om de "generation" taken te sturen, creëert het model een robuustere mapping van visuele cues naar spraak.
Inclusiviteit: Met de UniCUE-HI dataset wordt de kloof overbrugd tussen onderzoek met normaalhorende sprekers en de daadwerkelijke gebruikers van assistieve technologie (slechthorenden).
Toepassing: Dit systeem kan real-time communicatie tussen doven/slechthorenden en normaalhorenden verbeteren in educatieve en sociale omgevingen, door visuele gebaren direct om te zetten in natuurlijke, gesynchroniseerde spraak.

Kortom, UniCUE stelt een nieuwe standaard voor in het veld van visuele spraakgeneratie door multimodale complexiteit effectief te hanteren via een geïntegreerde architectuur en een inclusieve dataset.

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Het oude probleem: De "Tussenstap"

De nieuwe oplossing: UniCUE (De "Twee-in-één Superheld")

1. De "Pose-aware Visual Processor" (De Scherpziende Observer)

2. De "Semantic Alignment Pool" (De Vertaalboer)

3. De "VisioPhonetic Adapter" (De Bruggenbouwer)

Waarom is dit belangrijk?

Samenvatting in één zin

Probleemstelling

Methodologie: UniCUE

Nieuwe Dataset: UniCUE-HI

Resultaten

Significantie en Bijdragen

Meer zoals dit

Interpretable Battery Aging without Extra Tests via Neural-Assisted Physics-based Modelling

OkanNet: A Lightweight Deep Learning Architecture for Classification of Brain Tumor from MRI Images

A High Voltage Test System Meeting Requirements Under Normal and All Single Contingencies Conditions of Peak, Dominant, and Light Loadings for Transmission Expansion Planning Studies (TEP) and TEP Case Studies

Temporal Logic Control of Nonlinear Stochastic Systems with Online Performance Optimization

Dissipativity Analysis of Nonlinear Systems: A Linear--Radial Kernel-based Approach