Text-only adaptation in LLM-based ASR through text denoising

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, veelzijdige vertaler hebt die perfect kan luisteren en spreken. Dit is een LLM-gebaseerd spraakherkenningsysteem (een AI die spraak omzet in tekst). Deze AI is getraind met duizenden uren van audio en de bijbehorende teksten, zodat hij weet hoe geluid klinkt en hoe dat in woorden moet worden omgezet.

Maar wat gebeurt er als je deze AI wilt laten werken in een heel nieuw vakgebied, bijvoorbeeld de zorg of landbouw, waar je geen audio-opnames hebt, maar alleen maar tekst?

Het Probleem: De "Vergetelheid"

Normaal gesproken zou je de AI gewoon laten oefenen met die nieuwe teksten. Maar dat werkt niet goed. Het is alsof je een pianist die perfect kan spelen met een orkest, plotseling alleen maar laat oefenen met bladmuziek zonder het orkest. De pianist (de AI) vergeet dan hoe hij samen moet spelen met het orkest (de audio). De verbinding tussen geluid en tekst breekt, en de AI wordt slechter in het herkennen van spraak, zelfs als hij de nieuwe woorden wel kent.

De Oplossing: "Tekst-ontstoord" (Text Denoising)

De auteurs van dit paper hebben een slimme truc bedacht. In plaats van de AI te laten "leren" met pure tekst, laten ze hem oefenen met "vervuilde" tekst.

Stel je voor dat de AI een detective is die een beschadigde getuigenverklaring moet reconstrueren.

De "Vuil" Tekst: De AI krijgt een tekst die opzettelijk is "verstoord" (met fouten, herhalingen of rare tekens). Dit doet denken aan hoe de AI normaal gesproken audio omzet: het geluid wordt eerst omgezet in een ruwe, onvolmaakte tekst die de AI dan moet "opkuisen".
De Oefening: De AI moet nu die vuile tekst omzetten in de perfecte, schone tekst.
Het Geniale Detail: Ze mengen deze oefeningen met de oude, vertrouwde audio-oefeningen.

De Analogie: De Meesterkok en de Nieuwe Ingrediënten

Laten we het nog concreter maken met een kokken-analogie:

De AI is een meesterkok die bekend staat om het maken van perfecte Italiaanse pasta (de audio-tekst vertaling).
De Nieuwe Taak: Je wilt dat hij ook Aziatische gerechten gaat maken, maar je hebt geen verse groenten of vis (geen audio) voorhanden, alleen maar recepten (tekst) uit Aziatische kookboeken.
De Slechte Methode: Als je de kok alleen maar recepten laat lezen, vergeet hij misschien hoe hij het vuur moet aansteken of hoe hij moet snijden. Hij wordt een slechte kok voor zijn oude gerechten én voor de nieuwe.
De Nieuwe Methode (Dit paper): Je geeft de kok een recept, maar je verpest het een beetje (je laat de rijst te lang koken of je schrijft de namen van de kruiden verkeerd). Je zegt tegen hem: "Kijk, dit is een verpest recept. Maak er een perfect gerecht van."
- Terwijl hij dit doet, moet hij zijn oude vaardigheden (snijden, vuur) blijven gebruiken om het gerecht te redden.
- Tegelijkertijd leert hij de nieuwe smaken en ingrediënten (de nieuwe domeinwoorden) kennen.
- Door dit te mengen met zijn oude Italiaanse gerechten, blijft hij een meesterkok in alles.

Wat leverde dit op?

De onderzoekers hebben dit getest op twee grote verzamelingen data (zoals telefoongesprekken in de zorg en lezingen over verschillende onderwerpen).

Resultaat: Hun methode werkte veel beter dan eerdere pogingen. Ze verbeterden de prestaties met wel 22%.
Waarom is dit belangrijk? Omdat het heel moeilijk en duur is om audio-opnames te maken voor elk nieuw onderwerp. Met deze methode kun je een spraakherkenningsysteem snel en goedkoop aanpassen aan nieuwe vakgebieden (zoals juridisch taalgebruik of medische termen) door alleen maar bestaande teksten te gebruiken, zonder dat de AI zijn "oren" vergeet.

Kortom: Ze hebben de AI geleerd om "vuile" teksten op te schonen, zodat hij nieuwe woorden leert kennen zonder te vergeten hoe hij naar geluid moet luisteren. Een slimme manier om een AI te upgraden zonder extra dure opnames.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Text-Only Adaptation in LLM-Based ASR through Text Denoising" in het Nederlands.

Probleemstelling

Het aanpassen van spraakherkenningsystemen (ASR) gebaseerd op Large Language Models (LLM) aan nieuwe domeinen met behulp van alleen tekstdata is een significant maar onderbelicht probleem.

Huidige uitdaging: Standaard fine-tuning van de LLM op doeldomein-tekstdata leidt vaak tot catastrophal forgetting. Hierbij gaat de kritieke uitlijning (alignment) verloren die eerder is geleerd tussen de spraakmodality (via de projector) en de tekstmodality. Dit resulteert in een degradatie van de prestaties bij spraakherkenning.
Beperkingen van bestaande methoden: Eerdere pogingen om dit op te lossen (bijv. door monitoring-metrics of trainbare "soft prompts") zijn vaak complex, vereisen extra hyperparameters of lossen het probleem slechts gedeeltelijk op.
Kans: Tekstdata is veel ruimer beschikbaar dan gepaarde audio-tekstdata, wat een praktische oplossing zou kunnen bieden voor domeinaanpassing, mits de cross-modale uitlijning behouden blijft.

Methodologie

De auteurs introduceren een nieuwe aanpak die het probleem van tekst-only aanpassing herformuleert als een tekst-denoising taak.

Fundamenteel Inzicht:
In LLM-gebaseerde ASR-systemen fungeert de "projector" (die spraak naar tekst-embeddings mapt) als een ruisbron. De output van de projector lijkt op een "verstoord" transcript (bijv. "mmy Z YesssS" in plaats van "yes that would be"). De LLM leert tijdens training om deze ruis te verwijderen en het schone transcript te reconstrueren. De auteurs stellen dat deze eigenschap kan worden benut voor aanpassing zonder audio.
Oplossing: Text Denoising Adaptation:
In plaats van de LLM direct te laten trainen op schone doeldomein-tekst, wordt de LLM getraind om verstoord (ruisachtig) transcript te reconstrueren naar het schone transcript. De ruisfunctie noise(t) genereert variaties van de tekst die de output van de projector nabootsen.
Batch Constructie (Multi-view Noise-Driven Strategy):
Om catastrophal forgetting te voorkomen, wordt de training niet alleen uitgevoerd op doeldata, maar op een mix van batches met vier componenten:
- $\sigma_a$ : Gepaarde audio-tekst data uit het bron-domein (behoudt de oorspronkelijke spraak-tekst uitlijning).
- $\sigma_{ta}$ : Projector-gegenereerde ruis uit het bron-domein (audio wordt door de projector gestuurd, de output wordt als "ruis" gebruikt).
- $\sigma_t$ : Synthetische ruis (via willekeurige karaktersubstituties en duplicaties) op bron-tekst. Dit dient als een simpele benadering van projector-ruis zonder audio.
- $\tau_t$ : Synthetische ruis op doel-domein tekst. Dit drijft de aanpassing aan het nieuwe domein.
De verhoudingen worden zo ingesteld dat $\sigma_a$ klein maar niet-nul blijft om de uitlijning te behouden, terwijl $\tau$ de sterkte van de aanpassing bepaalt.

Belangrijkste Bijdragen

Herformulering als Denoising: De auteurs herformuleren tekst-only aanpassing als een denoising-probleem, waarbij de LLM traint om inputs te reconstrueren die lijken op de output van een spraakprojector.
Lightweight Training: De methode vereist geen architecturale wijzigingen en geen extra leerbare parameters (zoals soft prompts). Het is puur een strategie voor batch-samenstelling en data-augmentatie.
Uitgebreide Evaluatie: De methode is getest op twee grote datasets (DefinedAI en SlideSpeech) met verschillende domeinen (bankieren, verzekeringen, landbouw, animatie, etc.).

Resultaten

De methode is uitgebreid geëvalueerd in drie scenario's: in-domein, out-of-domein en cross-domein.

In-domein aanpassing (DefinedAI): De methode bereikte een 22,1% relatieve verbetering in Word Error Rate (WER) voor het Banking-domein en 17,9% voor Insurance. Dit presteert aanzienlijk beter dan state-of-the-art methoden van Fang et al. [15] en Ma et al. [18], en komt dicht in de buurt van de prestaties van aanpassing met audio-data.
Out-of-domein aanpassing (SlideSpeech): Consistente verbeteringen werden geboekt in domeinen als Landbouw (Ag) en Animatie (An), hoewel de verbetering in Muziekinstrumenten (MI) beperkter was door een lagere aanpassingssterkte ( $\tau$ ).
Cross-domein aanpassing: Zelfs bij grote verschillen in zowel lexicon als akoestische kenmerken (van DefinedAI naar SlideSpeech), slaagde de methode erin de prestaties significant te verbeteren ten opzichte van het basismodel en de concurrenten.
Ablatie-studies:
- Het verwijderen van de audio-component ( $\sigma_a$ ) leidde tot een catastrofaal verlies van prestaties (WER steeg met >400%), wat bevestigt dat de uitlijning essentieel is.
- Het gebruik van verstoord (ruisachtig) tekst als input was cruciaal; het trainen op schone tekst ("Echo") gaf minder goede resultaten. Dit bevestigt dat het denoising-frame nodig is om de patronen van het doeldomein effectief te leren.

Significantie

Dit onderzoek biedt een praktische en efficiënte oplossing voor een van de grootste knelpunten in de implementatie van LLM-gebaseerde ASR: de schaarste aan gepaarde audio-tekstdata voor nieuwe domeinen.

Kosteneffectiviteit: Het maakt gebruik van overvloedig beschikbare tekstdata zonder de noodzaak van dure transcriptie of audio-opnames.
Stabiliteit: Door de cross-modale uitlijning te behouden via de specifieke batch-mix, wordt het risico op catastrophal forgetting geminimaliseerd.
State-of-the-Art: De methode overtreft bestaande technieken voor tekst-only aanpassing aanzienlijk, wat een nieuwe richting opent voor de ontwikkeling van robuuste, domein-agnostische spraakherkenningsystemen.

Kortom, de auteurs tonen aan dat het trainen van een LLM om "ruis" in tekst te verwijderen (waarbij die ruis de output van de spraakprojector simuleert), een krachtige manier is om een ASR-systeem aan te passen aan nieuwe domeinen, zelfs zonder toegang tot de oorspronkelijke spraakdata van dat domein.

Text-only adaptation in LLM-based ASR through text denoising

Het Probleem: De "Vergetelheid"

De Oplossing: "Tekst-ontstoord" (Text Denoising)

De Analogie: De Meesterkok en de Nieuwe Ingrediënten

Wat leverde dit op?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Neural Network Tuning of FSMPC for Drives

Universal Speech Content Factorization

A Policy-Aware Cross-Layer Auditing Service for Tiering and Throttling in Starlink

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Robust Wildfire Forecasting under Partial Observability: From Reconstruction to Prediction