Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een tolk hebt die twee heel verschillende manieren van werken kan: de perfectionist en de snelheidsduivel.

De perfectionist luistert naar het hele gesprek, denkt na over de context, en geeft dan pas een perfect, foutloos verslag. Dit is geweldig voor nauwkeurigheid, maar het duurt even.
De snelheidsduivel schrijft mee terwijl je praat, woord voor woord. Dit is super snel (ideaal voor live ondertiteling), maar omdat hij niet kan "terugkijken" naar wat er later komt, maakt hij soms fouten of moet hij dingen later corrigeren.

Tot nu toe moesten bedrijven kiezen: of ze hadden een perfect systeem, of een snel systeem. Ze konden niet beide hebben in één programma.

Uni-ASR is de nieuwe oplossing van Alibaba die deze twee werelden samenvoegt. Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De "Chameleontolker" (De Architectuur)

Stel je Uni-ASR voor als een slimme tolk die een chameleontische hoed draagt.

Soms draagt hij de hoed van de perfectionist (niet-streaming). Hij luistert naar het hele gesprek en geeft het beste antwoord.
Soms draagt hij de hoed van de snelheidsduivel (streaming). Hij schrijft direct mee terwijl je praat.

Het mooie is: het is één en dezelfde tolk. Je hoeft geen twee verschillende mensen in te huren of het systeem te vervangen. Het systeem schakelt moeiteloos tussen deze twee modi zonder dat de bouw van het systeem verandert.

2. De "Oefensessie met een Twist" (Training)

Hoe leer je een tolk om beide dingen goed te doen? Normaal gesproken oefen je ze apart. Bij Uni-ASR doen ze iets slim: Gemengde Oefeningen.

De Normale Oefening: De tolk oefent met volledige zinnen (zoals in een klaslokaal).
De Stroom-Oefening: Ze oefenen ook met stukjes tekst, alsof de tolk alleen maar een fragment van een gesprek hoort.

Maar hier komt de echte magie: De Context-bewuste Oefening.
Stel je voor dat de snelheidsduivel-tolk een stukje tekst schrijft, maar dan stopt hij plotseling. In de echte wereld moet hij dan wachten tot het volgende stukje audio komt om te zien of hij zijn laatste woordje moet aanpassen.
Bij Uni-ASR leren ze de tolk tijdens de training om opzettelijk te stoppen en te wachten. Ze zeggen: "Schrijf dit woord, maar doe alsof je het misschien moet wissen als het volgende stukje audio iets anders suggereert."

Dit zorgt ervoor dat de tolk leert om niet te panikeren als hij een woord moet corrigeren. Hij leert om slim om te gaan met de onzekerheid van het "live" werken.

3. De "Terugval-Strategie" (Decoding)

Dit is de veiligheidsnet-methode.
Stel je voor dat de snelheidsduivel-tolk een woord heeft geschreven, maar het volgende stukje audio laat zien dat hij een foutje maakte.

Oude methode: Hij zou het hele verslag opnieuw moeten typen (traag) of het foutje laten staan (slecht).
Uni-ASR methode: Hij gebruikt een trucje. Hij zegt: "Oké, ik heb dit woord geschreven, maar ik ga het even 'verstoppen' (met een leeg teken vullen) en ik kijk naar het nieuwe stukje audio om het opnieuw te bedenken."

Dit gebeurt zo snel dat je het niet merkt. Het is alsof de tolk in een splitseconde denkt: "Ah, ik dacht 'appel', maar nu ik de rest van de zin hoor, was het 'ananas'. Ik pas het direct aan zonder de hele zin te herschrijven."

Waarom is dit belangrijk?

Vroeger was het een compromis:

Wil je snelheid? Dan accepteer je meer fouten.
Wil je nauwkeurigheid? Dan moet je wachten.

Met Uni-ASR krijg je het beste van beide werelden:

Het is net zo nauwkeurig als de beste systemen die wachten tot je klaar bent.
Het is net zo snel als de beste systemen die live meeschrijven.

Het is alsof je eindelijk een tolk hebt die zowel een briljant essay kan schrijven als live commentaar kan geven tijdens een voetbalwedstrijd, zonder dat je merkt dat hij van rol wisselt. Dit maakt het perfect voor apps die direct vertalen, live ondertiteling voor vergaderingen, of spraakbesturing in je auto, waar snelheid en nauwkeurigheid even belangrijk zijn.

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

1. De "Chameleontolker" (De Architectuur)

2. De "Oefensessie met een Twist" (Training)

3. De "Terugval-Strategie" (Decoding)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

1. De "Chameleontolker" (De Architectuur)

2. De "Oefensessie met een Twist" (Training)

3. De "Terugval-Strategie" (Decoding)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance