Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme vertaler hebt die een gesprek in het Engels naar het Nederlands vertaalt. Deze vertaler is zo nauwkeurig dat hij bijna perfect is, maar hij heeft een groot nadeel: hij werkt heel langzaam. Hij moet elk woord één voor één bedenken, alsof hij elke zin opnieuw schrijft voordat hij de volgende zin begint. Dit heet in de tech-wereld "autoregressief" werken.

De auteurs van dit paper (van IBM Research) hebben een slimme truc bedacht om deze vertaler sneller te maken, zonder dat hij minder goed wordt. Ze noemen dit "Self-Speculative Decoding".

Hier is hoe het werkt, uitgelegd met een simpele analogie:

De Drie-Acten Show

Stel je voor dat de vertaler een Hoofdredacteur is (de grote LLM). Hij is briljant, maar traag. Om hem te helpen, hebben ze een Snelheidskrant (de CTC-encoder) in dienst genomen. Deze krant is niet zo slim, maar hij schrijft razendsnel.

Het proces verloopt in drie stappen:

Stap 1: De Snelheidskrant doet een gok (CTC Decode)

De Snelheidskrant luistert naar de spraak en schrijft direct een hele zin op. Omdat hij zo snel is, doet hij dit bijna in één klap.

De check: De redactie kijkt of de Snelheidskrant zeker is van zijn zaak. Kijkt hij naar zijn eigen werk en denkt hij: "Ja, dit klopt wel, ik heb geen twijfels"?
Het resultaat: Als hij zeker is (de "entropie" is laag), dan is het klaar! De Hoofdredacteur hoeft niets te doen. De zin is direct goed. Dit bespaart enorm veel tijd.

Stap 2: De Snelheidskrant vraagt om een snelle check (LLM Verify)

Als de Snelheidskrant twijfelt (bijvoorbeeld bij moeilijke woorden of ruis in de audio), dan geeft hij zijn versie aan de Hoofdredacteur.

De truc: In plaats van dat de Hoofdredacteur de hele zin opnieuw van nul begint te schrijven, kijkt hij slechts één keer naar de hele zin die de Snelheidskrant heeft geschreven.
De vraag: "Is deze zin logisch en klinkt hij goed?"
Het resultaat: Als de Hoofdredacteur zegt: "Ja, dit klinkt goed, zelfs als jij twijfelde", dan accepteert hij de zin. De Hoofdredacteur heeft hiermee in één oogopslag 5 of 10 woorden gecontroleerd in plaats van ze één voor één te bedenken.

Stap 3: De noodrem (AR Fallback)

Stel dat de Hoofdredacteur naar de zin van de Snelheidskrant kijkt en zegt: "Nee, dit klinkt raar. Het woord 'kat' had je 'hond' moeten zeggen."

Dan stopt de Snelheidskrant. De Hoofdredacteur pakt de zin op het punt waar hij het oneens was en schrijft de rest van de zin normaal en langzaam op (woord voor woord).
Dit is de "veilige" manier, maar het kost meer tijd.

Waarom is dit zo slim?

Het is een teamwerk: De Snelheidskrant (CTC) en de Hoofdredacteur (LLM) maken verschillende fouten. De Snelheidskrant is goed in het luisteren naar geluid, maar soms maakt hij grammaticale fouten. De Hoofdredacteur is goed in grammatica, maar luistert soms te veel naar wat hij verwacht te horen (in plaats van wat er echt gezegd wordt). Door ze samen te laten werken, krijgen ze het beste van beide werelden: minder fouten én meer snelheid.
Geen extra kosten: Ze hoeven geen nieuwe, aparte "snelle" computer te bouwen. Ze gebruiken gewoon het bestaande onderdeel van de computer dat al voor het luisteren is gemaakt (de CTC-encoder) als de "snelheidskrant".
Resultaat: In hun tests bleek dat ze de vertaling 4,4 keer sneller konden maken, terwijl de fouten zelfs nog iets minder werden dan bij de oude, trage methode.

Samenvattend

Het is alsof je een zeer snelle, maar soms slordige secretaris hebt die een verslag schrijft. In plaats dat je de hele versie van een super-nauwkeurige maar trage manager laat herschrijven, laat je de manager alleen kijken of de snelle secretaris het goed heeft gedaan. Als de manager denkt "Ja, dit is prima", dan is het klaar. Als hij denkt "Nee, hier zit een fout", dan corrigeert hij alleen dat stukje.

Hierdoor wordt het hele proces veel sneller, zonder dat de kwaliteit inboet. Dit is een doorbraak voor spraakherkenning, waardoor apps die live meedraaien met wat je zegt, veel soepeler en nauwkeuriger kunnen werken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts" in het Nederlands.

Probleemstelling

Speech-aware Language Models (SLMs), een specifieke vorm van Attention Encoder-Decoder (AED) modellen, vertegenwoordigen momenteel de state-of-the-art in spraakherkenning (ASR) qua nauwkeurigheid. Deze modellen combineren een akoestische encoder (vaak een Conformer) met een Large Language Model (LLM) decoder.

De belangrijkste beperking van deze SLM-architecturen is dat de inferentie autoregressief (AR) verloopt: elk token wordt één voor één gegenereerd, wat een aparte forward pass door de LLM vereist per gegenereerd token. Dit beperkt de parallelisatie en resulteert in een hoge latentie en een lage doorvoer (low throughput) vergeleken met niet-autoregressieve benaderingen zoals CTC (Connectionist Temporal Classification) met greedy decoding. Bestaande methoden om AR-inferentie te versnellen, zoals speculative decoding, vereisen vaak een apart, kleiner "draft"-model dat parallel loopt met het grote doelmodel. Dit introduceert echter extra complexiteit en trainingseisen.

Methodologie: Self-Speculative Decoding (SSD)

De auteurs stellen een nieuwe methode voor, Self-Speculative Decoding, waarbij het CTC-deel van het bestaande SLM wordt hergebruikt als het "draft-model". Dit elimineert de noodzaak voor een extern draft-model. Het proces verloopt in drie stappen (zie Figuur 1 in het paper):

CTC Decoding en Verificatie (Stap 1):
- De CTC-encoder genereert een hypothese (greedy alignment) voor de volledige spraaksequentie.
- In plaats van direct te accepteren, wordt de frame-entropie van de CTC-uitgangsdistributie geanalyseerd.
- Als de entropie voor alle frames onder een bepaalde drempelwaarde ( $\tau_{CTC}$ ) ligt (wat betekent dat de CTC-hypothese zeer zeker is), wordt deze direct als eindresultaat geaccepteerd. Dit omzeilt de LLM volledig voor deze segmenten.
SLM Verificatie (Stap 2):
- Als de entropie te hoog is (onzekere CTC-hypothese), wordt de CTC-hypothese verstuurd naar de LLM voor verificatie.
- De LLM voert één enkele forward pass uit om de waarschijnlijkheid (likelihood) van de door CTC gegenereerde tokens te controleren.
- Een ontspannen acceptatiecriterium wordt gebruikt: de tokens hoeven niet exact te matchen met de LLM's eigen voorspelling, maar moeten alleen een waarschijnlijkheid boven een drempel ( $\tau_{SLM}$ ) hebben.
- Als alle tokens deze drempel halen, wordt de CTC-hypothese geaccepteerd.
Autoregressieve Fallback (Stap 3):
- Als de verificatie faalt (een token valt onder de drempel), wordt het langste geaccepteerde CTC-prefix behouden.
- De LLM start vervolgens een standaard autoregressieve decoding vanaf het punt waar de verificatie faalde, gebaseerd op dit prefix.

Architectuur:
Het systeem gebruikt een gefixeerde CTC-encoder (getraind met CTC-verlies) en een LLM-decoder. De akoestische embeddings van de encoder worden via een "adapter" (Q-Former) geprojecteerd naar de LLM-ruimte. De methodiek vereist geen extra training van een apart draft-model; het CTC-head is al aanwezig in het SLM.

Belangrijkste Bijdragen

Hergebruik van bestaande componenten: In plaats van een nieuw, klein model te trainen voor speculative decoding, gebruiken de auteurs de CTC-encoder van het SLM zelf als draft-generator.
Complementaire foutpatronen: Het paper toont aan dat CTC en SLM verschillende soorten fouten maken. De CTC-hypothese is vaak "akoestisch trouwer" (minder beïnvloed door taalkundige bias), terwijl de LLM de fluïditeit verbetert. De combinatie leidt tot een lagere Woordfoutratio (WER) dan pure AR-decoding.
Dynamische snelheid/Nauwkeurigheidsafweging: Door de drempelwaarden ( $\tau_{CTC}$ en $\tau_{SLM}$ ) aan te passen, kunnen gebruikers kiezen tussen een configuratie voor maximale nauwkeurigheid (waarbij de LLM vaak controleert) of maximale snelheid (waarbij de CTC-hypothese vaak direct wordt geaccepteerd).

Resultaten

De methode is getest op negen corpora en vijf talen (Engels, Duits, Spaans, Frans, Portugees) met een 1B parameter LLM en een 440M parameter CTC-encoder.

Nauwkeurigheid (WER):
- Op de HuggingFace Open ASR benchmark bereikte het model een record 5,58% WER.
- Dit is een verbetering ten opzichte van volledige autoregressieve decoding (5,75% WER), ondanks dat het model minder tokens genereert via de dure AR-pas.
- Voorbeelden tonen aan dat de LLM-geverifieerde CTC-hypothese vaak correcter is dan pure AR-output, vooral bij het vermijden van "language model bias" (waarbij het model woorden voegt die niet in de audio staan).
Snelheid (RTFx - Inverse Real Time Factor):
- In een configuratie voor hoge doorvoer ("High RTFx") werd de inferentie versneld met een factor 4,4 ten opzichte van volledige AR-decoding.
- Deze snelheidswinst werd bereikt met slechts een relatieve degradatie van 12% in WER.
- De analyse toont aan dat de encoder en de fallback-AR-pas de meest tijdrovende stappen zijn in de nauwkeurige modus, terwijl de CTC-pass zeer snel is.
Ablatie-studie:
- Het gebruik van beide verificatiestappen (CTC-entropie én LLM-likelihood) levert de beste Pareto-grens op (beste balans tussen snelheid en nauwkeurigheid).
- Het uitschakelen van de LLM-verificatie leidt tot lagere nauwkeurigheid, terwijl het uitschakelen van de CTC-acceptatie leidt tot lagere doorvoer.

Betekenis en Toekomstperspectief

Deze paper demonstreert dat het mogelijk is om de inferentiesnelheid van spraakherkenningsmodellen aanzienlijk te verbeteren zonder de nauwkeurigheid te verliezen, en zelfs deze te verbeteren door slimme combinaties van bestaande componenten.

Efficiëntie: Het elimineert de overhead van het trainen en onderhouden van een apart draft-model.
Toepasbaarheid: De techniek is specifiek ontworpen voor ASR en maakt gebruik van de unieke eigenschappen van CTC (niet-autoregressief) en LLM (contextueel).
Toekomstig werk: De auteurs plannen onderzoek naar het gezamenlijk trainen van de encoder en LLM specifiek voor speculatie (om de acceptatiekans van de LLM te maximaliseren) en het toepassen van deze ideeën voor real-time conversatieve toepassingen om de latentie verder te verlagen.

Kortom, Self-Speculative Decoding biedt een praktische en effectieve route om de snelheid van geavanceerde spraakherkenningsmodellen te schalen, terwijl de kwaliteit van de transcriptie behouden blijft of zelfs verbetert.

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

De Drie-Acten Show

Stap 1: De Snelheidskrant doet een gok (CTC Decode)

Stap 2: De Snelheidskrant vraagt om een snelle check (LLM Verify)

Stap 3: De noodrem (AR Fallback)

Waarom is dit zo slim?

Samenvattend

Probleemstelling

Methodologie: Self-Speculative Decoding (SSD)

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Neural Network Tuning of FSMPC for Drives

Universal Speech Content Factorization

A Policy-Aware Cross-Layer Auditing Service for Tiering and Throttling in Starlink

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Robust Wildfire Forecasting under Partial Observability: From Reconstruction to Prediction