Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek met geluidsbestanden hebt. Je wilt deze bestanden zo klein mogelijk maken zonder dat er één nootje van de muziek of één woordje van de spraak verloren gaat. Dit noemen we verliesloze compressie.

Vroeger gebruikten we daar slimme, maar wat ouderwetse methoden voor (zoals FLAC). Maar nu hebben onderzoekers een nieuwe aanpak geprobeerd: ze gebruiken AI-talenmodellen. Denk hierbij aan dezelfde technologie die chatbots zoals ik gebruikt, maar dan getraind op geluid in plaats van tekst.

Hier is wat dit paper vertelt, vertaald naar alledaagse taal:

1. Het Probleem: De "Woordenboeken" worden te groot

Stel je voor dat je een geluidsbestand wilt comprimeren door het te beschrijven als een verhaal.

Bij lage kwaliteit (8-bit): Het geluid is als een zwart-wit tekening. Er zijn maar 256 mogelijke kleuren. Je kunt een woordenboek maken met 256 woorden. Dit is makkelijk voor een computer om te onthouden en te voorspellen.
Bij hoge kwaliteit (16-bit of 24-bit): Dit is als een foto in 4K-resolutie met miljoenen kleuren.
- Bij 16-bit zijn er 65.000 mogelijke "kleuren" (waarden).
- Bij 24-bit zijn er 16,7 miljoen mogelijke waarden.

Als je een AI-model wilt trainen om direct naar deze 16,7 miljoen waarden te kijken, wordt het "woordenboek" (de vocabulaire) zo gigantisch dat de computer er letterlijk van crasht. Het is alsof je een kind vraagt om een woordenboek van 16 miljoen woorden uit het hoofd te leren voordat het een zin kan maken. Dat is onmogelijk.

2. De Oplossing: "Trilobyte" (De Legoblokken-methode)

De onderzoekers bedachten een slimme truc, genaamd Trilobyte.

In plaats van te proberen het hele geluid in één keer te "zien" (als één groot blok), breken ze elk geluidsstukje op in bytes (kleine stukjes van 8 bits).

Een byte heeft altijd maar 256 mogelijke waarden (net als de lage kwaliteit).
Of je nu een 16-bit of een 24-bit geluid hebt, je kunt het altijd opsplitsen in een rijtje van deze kleine 256-waardige blokjes.

De analogie:
Stel je voor dat je een heel groot, complex schilderij moet beschrijven.

De oude manier: Je probeert elke unieke tint van het schilderij direct te benoemen. Bij een 24-bit schilderij heb je miljoenen tinten. Je woordenboek is te groot.
De Trilobyte-methode: Je zegt: "Ik beschrijf het schilderij niet in één keer, maar ik beschrijf het pixel voor pixel, en elke pixel bestaat uit 3 kleine kleurtjes (Rood, Groen, Blauw)." Elk van die kleurtjes heeft maar 256 opties. Je gebruikt dus steeds hetzelfde, kleine woordenboek, maar je schrijft het verhaal wel langer.

Dit maakt het mogelijk om de AI te trainen op professionele, hoge kwaliteit audio (CD-kwaliteit en zelfs studio-kwaliteit) zonder dat de computer gek wordt van de grootte van het woordenboek.

3. Wat vonden ze? (De Resultaten)

De onderzoekers testten dit op muziek, spraak en zelfs vogelgeluiden.

Bij lage kwaliteit (8-bit): De AI was een superheld. Hij comprimeerde het geluid veel beter dan de oude methoden (soms wel 2 tot 3 keer kleiner).
Bij CD-kwaliteit (16-bit): De AI deed het nog steeds beter dan de oude methoden, maar het verschil was kleiner (ongeveer 18% beter). Het was een goede prestatie, maar geen wonder.
Bij Studio-kwaliteit (24-bit): Hier werd het lastig. De AI deed het iets slechter dan de oude methode (FLAC).
- Waarom? Bij 24-bit zit er vaak heel veel "ruis" in de laagste details van het geluid die het menselijk oor niet eens hoort. De oude methode (FLAC) is heel slim in het wegwerken van die onhoorbare ruis. De AI probeerde die ruis ook nog te beschrijven, wat inefficiënt was.

4. De Belangrijkste Conclusie

Het paper leert ons twee dingen:

AI kan werken: We kunnen nu voor het eerst AI gebruiken om professionele, hoge kwaliteit audio verliesloos te comprimeren. De "Trilobyte"-methode lost het probleem van de te grote woordenboeken op.
De limiet is bereikt: Hoe hoger de kwaliteit van het geluid, hoe moeilijker het is om het kleiner te maken zonder verlies. De oude methoden (FLAC) zitten al heel dicht bij de fysieke limiet van wat mogelijk is voor hoogwaardig geluid. De AI wint het op lage kwaliteit, maar op de allerhoogste kwaliteit is het verschil minimaal.

Kortom: De onderzoekers hebben een nieuwe sleutel gevonden (Trilobyte) om de deur naar AI-compressie voor hoogwaardig geluid open te maken. Het is nog niet perfect (de oude methoden zijn nog steeds heel goed), maar het bewijst dat het mogelijk is en legt de basis voor de toekomst. En ja, de code is openbaar gemaakt, zodat iedereen het kan proberen!

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio" in het Nederlands.

Probleemstelling

De recente opkomst van autoregressieve taalkundige modellen (LM's) heeft aanzienlijke verbeteringen gebracht in verliesbeperkte (lossy) audiocompressie. Echter, het potentieel van machine learning voor verliesvrije (lossless) compressie op volledige fideliteit (full-fidelity, d.w.z. 16-bit en 24-bit) blijft grotendeels onontgonnen. Bestaand werk is beperkt tot 8-bit audio, wat in de praktijk weinig relevant is omdat professionele workflows en consumentenbestanden standaard 16-bit (CD-kwaliteit) of 24-bit gebruiken.

De kernuitdaging bij het toepassen van LM's op hogere bitdieptes is de explosie van de vocabulairegrootte. Bij standaard "sample-level" tokenisatie (waarbij elke audio-sample één token is) groeit het vocabulaire exponentieel met de bitdiepte ($2^b$):

8-bit: 256 tokens (beheersbaar).
16-bit: 65.536 tokens.
24-bit: 16.777.216 tokens.

Deze exponentiële schaling maakt het trainen van autoregressieve modellen voor 16- en 24-bit audio computationeel onuitvoerbaar (intractable) vanwege de enorme grootte van de embedding- en outputlagen.

Methodologie: Trilobyte

Om dit probleem op te lossen, stellen de auteurs Trilobyte voor, een nieuw tokenisatieschema dat de schaling van het vocabulaire van exponentieel ( $O(2^b)$ ) naar constant ( $O(1)$ ) reduceert.

Byte-level Tokenisatie: In plaats van een volledige sample (bijv. 24 bits) als één token te behandelen, wordt de sample opgebroken in bytes (8 bits). Een 24-bit sample wordt dus vertaald naar een sequentie van 3 tokens (MSB, middenbyte, LSB).
Constant Vocabulaire: Het model voorspelt bij elke stap één byte uit een vast vocabulaire van 256 mogelijke waarden ($2^8$), ongeacht de totale bitdiepte van de audio. Dit elimineert de noodzaak voor een enorm vocabulaire.
Hierarchische Structuur: De bytes worden sequentieel verwerkt. Hoewel het vocabulaire klein blijft, leert het autoregressieve model via de context implicit de verdeling van elke specifieke bytepositie (bijv. dat de MSB vaak 0 is bij stille geluiden).
Compressiepijplijn: Het getrainde LM wordt gebruikt in combinatie met arithmetic coding. De waarschijnlijkheid die het model toekent aan de volgende byte bepaalt de compressie-efficiëntie. De compressieverhouding wordt direct afgeleid van de cross-entropy loss van het model.
Stereo-verwerking: Voor stereo-audio worden de kanalen (links/rechts) geconcateneerd in plaats van interleaved, zodat het model cross-kanaal correlaties beter kan benutten dan traditionele methoden zoals mid-side encoding.

Belangrijkste Bijdragen

Trilobyte: Een tokenisatie-schema dat tractable (uitvoerbaar) lossless compressie van 24-bit audio mogelijk maakt door de vocabulairegrootte constant te houden.
Uitgebreide Benchmark: De eerste systematische evaluatie van LM-based compressie op volledige fideliteit (16/24-bit) over diverse domeinen (muziek, spraak, bio-akoestiek) en sample rates (16-48 kHz).
Empirische Inzichten: Het kwantificeren van de prestatiekloof tussen geleerde compressoren en traditionele codecs (FLAC) bij verschillende bitdieptes, waarbij wordt aangetoond dat bitdiepte de beperkende factor is, niet de sample rate.
Open Source: De publicatie van de code en een "generalist" Trilobyte-model dat op meerdere datasets is getraind.

Resultaten

De auteurs hebben hun methoden vergeleken met de industriestandaard FLAC (Free Lossless Audio Codec) en bestaande baselines.

8-bit Audio: LM's (zowel standaard als Trilobyte) presteren aanzienlijk beter dan FLAC, met gemiddelde verbeteringen van 217%. Dit bevestigt eerdere bevindingen.
16-bit Audio (CD-kwaliteit): De prestaties van LM's zijn consistent beter dan FLAC, maar de verbetering is bescheidener (~18% gemiddeld).
- Op sommige datasets (zoals Epidemic Sound) wordt een verbetering van 29% bereikt.
- Er is een sterke correlatie tussen de compressie van FLAC en Trilobyte, wat suggereert dat FLAC al dicht bij de theoretische limiet komt voor deze data.
24-bit Audio (Professionele kwaliteit):
- Standaard sample-level tokenisatie is hier volledig onuitvoerbaar.
- Trilobyte maakt compressie mogelijk, maar presteert 9% slechter dan FLAC (1.48x vs 1.63x).
- Interpretatie: Een groot deel van de informatie in de minst significante bits van 24-bit audio lijkt onhoorbaar ruis te zijn. FLAC's Rice-coding is blijkbaar zeer efficiënt in het comprimeren van deze lage-amplitude ruis, terwijl LM's moeite hebben om hier extra structuur in te vinden.
Transfer Learning: Een enkel Trilobyte-model, getraind op alle datasets met een maskeringsstrategie voor lagere bitdieptes, kan effectief compressie uitvoeren op willekeurige bitdieptes (8, 16, 24-bit) zonder hertraining, met prestaties vergelijkbaar met dataset-specifieke modellen.

Betekenis en Conclusie

De studie concludeert dat bitdiepte de primaire bottleneck is voor LM-based lossless compressie, niet de sample rate of het type audio.

Hoewel LM's bij 8-bit dramatisch beter presteren dan traditionele codecs, nemen de voordelen af naarmate de bitdiepte toeneemt.
Bij 16-bit en 24-bit opereert FLAC blijkbaar al dicht bij de fundamentele entropiegrenzen van de data, wat de ruimte voor verbetering door ML beperkt.
Praktische toepasbaarheid: Momenteel zijn de ML-methoden orde van grootte trager dan FLAC, waardoor de bescheiden compressiewinsten de rekenkosten voor real-time toepassingen niet rechtvaardigen.
Wetenschappelijke waarde: Het werk vult een kritieke lacune in de literatuur door te tonen dat LM's wel degelijk schalen naar volledige fideliteit, maar dat de "easy wins" van 8-bit niet automatisch vertalen naar hogere bitdieptes. Trilobyte biedt de technische basis (via byte-level tokenisatie) om dit onderzoeksveld verder te verkennen en mogelijk toekomstige modellen te ontwikkelen die de prestaties bij hoge bitdieptes kunnen verbeteren.

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

1. Het Probleem: De "Woordenboeken" worden te groot

2. De Oplossing: "Trilobyte" (De Legoblokken-methode)

3. Wat vonden ze? (De Resultaten)

4. De Belangrijkste Conclusie

Probleemstelling

Methodologie: Trilobyte

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models