Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

In dit artikel wordt Uni-ASR voorgesteld, een unified framework op basis van LLM's dat naadloos zowel niet-streaming als streaming spraakherkenning ondersteunt via een gezamenlijk trainingsparadigma en een contextbewuste fallback-decodestrategie, waardoor hoge nauwkeurigheid wordt bereikt zonder extra latentie.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao Yao

Gepubliceerd Fri, 13 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een tolk hebt die twee heel verschillende manieren van werken kan: de perfectionist en de snelheidsduivel.

  • De perfectionist luistert naar het hele gesprek, denkt na over de context, en geeft dan pas een perfect, foutloos verslag. Dit is geweldig voor nauwkeurigheid, maar het duurt even.
  • De snelheidsduivel schrijft mee terwijl je praat, woord voor woord. Dit is super snel (ideaal voor live ondertiteling), maar omdat hij niet kan "terugkijken" naar wat er later komt, maakt hij soms fouten of moet hij dingen later corrigeren.

Tot nu toe moesten bedrijven kiezen: of ze hadden een perfect systeem, of een snel systeem. Ze konden niet beide hebben in één programma.

Uni-ASR is de nieuwe oplossing van Alibaba die deze twee werelden samenvoegt. Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De "Chameleontolker" (De Architectuur)

Stel je Uni-ASR voor als een slimme tolk die een chameleontische hoed draagt.

  • Soms draagt hij de hoed van de perfectionist (niet-streaming). Hij luistert naar het hele gesprek en geeft het beste antwoord.
  • Soms draagt hij de hoed van de snelheidsduivel (streaming). Hij schrijft direct mee terwijl je praat.

Het mooie is: het is één en dezelfde tolk. Je hoeft geen twee verschillende mensen in te huren of het systeem te vervangen. Het systeem schakelt moeiteloos tussen deze twee modi zonder dat de bouw van het systeem verandert.

2. De "Oefensessie met een Twist" (Training)

Hoe leer je een tolk om beide dingen goed te doen? Normaal gesproken oefen je ze apart. Bij Uni-ASR doen ze iets slim: Gemengde Oefeningen.

  • De Normale Oefening: De tolk oefent met volledige zinnen (zoals in een klaslokaal).
  • De Stroom-Oefening: Ze oefenen ook met stukjes tekst, alsof de tolk alleen maar een fragment van een gesprek hoort.

Maar hier komt de echte magie: De Context-bewuste Oefening.
Stel je voor dat de snelheidsduivel-tolk een stukje tekst schrijft, maar dan stopt hij plotseling. In de echte wereld moet hij dan wachten tot het volgende stukje audio komt om te zien of hij zijn laatste woordje moet aanpassen.
Bij Uni-ASR leren ze de tolk tijdens de training om opzettelijk te stoppen en te wachten. Ze zeggen: "Schrijf dit woord, maar doe alsof je het misschien moet wissen als het volgende stukje audio iets anders suggereert."

Dit zorgt ervoor dat de tolk leert om niet te panikeren als hij een woord moet corrigeren. Hij leert om slim om te gaan met de onzekerheid van het "live" werken.

3. De "Terugval-Strategie" (Decoding)

Dit is de veiligheidsnet-methode.
Stel je voor dat de snelheidsduivel-tolk een woord heeft geschreven, maar het volgende stukje audio laat zien dat hij een foutje maakte.

  • Oude methode: Hij zou het hele verslag opnieuw moeten typen (traag) of het foutje laten staan (slecht).
  • Uni-ASR methode: Hij gebruikt een trucje. Hij zegt: "Oké, ik heb dit woord geschreven, maar ik ga het even 'verstoppen' (met een leeg teken vullen) en ik kijk naar het nieuwe stukje audio om het opnieuw te bedenken."

Dit gebeurt zo snel dat je het niet merkt. Het is alsof de tolk in een splitseconde denkt: "Ah, ik dacht 'appel', maar nu ik de rest van de zin hoor, was het 'ananas'. Ik pas het direct aan zonder de hele zin te herschrijven."

Waarom is dit belangrijk?

Vroeger was het een compromis:

  • Wil je snelheid? Dan accepteer je meer fouten.
  • Wil je nauwkeurigheid? Dan moet je wachten.

Met Uni-ASR krijg je het beste van beide werelden:

  1. Het is net zo nauwkeurig als de beste systemen die wachten tot je klaar bent.
  2. Het is net zo snel als de beste systemen die live meeschrijven.

Het is alsof je eindelijk een tolk hebt die zowel een briljant essay kan schrijven als live commentaar kan geven tijdens een voetbalwedstrijd, zonder dat je merkt dat hij van rol wisselt. Dit maakt het perfect voor apps die direct vertalen, live ondertiteling voor vergaderingen, of spraakbesturing in je auto, waar snelheid en nauwkeurigheid even belangrijk zijn.