Human-CLAP: Human-perception-based contrastive language-audio pretraining

Each language version is independently generated for its own context, not a direct translation.

De "Menselijke Oor" voor AI: Hoe een nieuwe methode computers leert wat mensen echt horen

Stel je voor dat je een robot hebt die kunstzinnige geluiden maakt, zoals een regenbui of een zingende vogel. De robot vraagt aan een computer: "Hoe goed past dit geluid bij de tekst 'regenbui'?"

Tot nu toe gebruikten wetenschappers een slimme, maar soms verwarde robot-oortje genaamd CLAP. Deze robot-oortje kijkt naar de tekst en het geluid en zegt: "Ja, dat lijkt wel op elkaar!" Maar er is een probleem: de robot is niet altijd in lijn met wat een mens denkt. Soms zegt de robot dat een geluid perfect past, terwijl een mens denkt: "Nee, dat klinkt helemaal niet als regen."

In dit paper presenteren de onderzoekers een oplossing: Human-CLAP. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het Probleem: De Verkeerde Leraar

Stel je voor dat je een kind leert om te tekenen. Je geeft het duizenden voorbeelden van "hond" en "kat". Maar sommige voorbeelden zijn slecht: een foto van een hond met de tekst "kat" erbij, of een vage tekening met de tekst "dier".

De oude AI (CLAP) leerde van al die voorbeelden, inclusief de fouten. Het leerde: "Als de tekst en het geluid op elkaar lijken, is het goed." Maar omdat de "leraar" (de dataset) soms slordig was, leerde de AI niet echt wat mensen voelen. Het was alsof de AI een cijfer gaf op basis van een lijstje, terwijl mensen luisterden met hun hart en oren.

De onderzoekers ontdekten dat de scores die de oude AI gaf, nauwelijks correleerden met wat mensen echt vonden. Het was alsof de AI een poppetje tekende en zei: "Dit is een perfect portret!", terwijl jij dacht: "Dat lijkt op een aardappel."

2. De Oplossing: De "Menselijke Oor" (Human-CLAP)

In plaats van de AI te laten gissen, gaven de onderzoekers de AI een menselijke leraar.

Ze namen een klein groepje echte mensen en vroegen hen: "Hoe goed past dit geluid bij deze tekst?" en gaven een cijfer van 0 (helemaal niet) tot 10 (perfect).

Vervolgens namen ze de oude AI en zeiden: "Kijk eens naar deze menselijke cijfers. Leer van onze mensen, niet van je oude, rommelige lijstje."

Dit is Human-CLAP. Het is alsof je de robot-oortje een paar uur laat luisteren naar echte mensen die eerlijk zeggen wat ze horen, in plaats van alleen naar een database te kijken.

3. Hoe werkt het? (De "Gewogen" Lijst)

De onderzoekers gebruikten een slimme truc om de AI te trainen. Ze gebruikten een nieuwe formule (een "verliesfunctie") die twee dingen combineert:

De oude manier: Kijk of tekst en geluid bij elkaar horen.
De nieuwe manier: Kijk naar het menselijke cijfer.

Stel je voor dat je een weegschaal hebt.

Als mensen zeggen: "Dit klinkt perfect!" (cijfer 10), dan weegt de AI dit zwaar. Hij moet zeker weten dat tekst en geluid perfect matchen.
Als mensen zeggen: "Dit klinkt raar..." (cijfer 2), dan weegt de AI dit ook zwaar. Hij moet leren dat tekst en geluid niet bij elkaar horen.

De oude AI negeerde vaak de slechte voorbeelden. De nieuwe Human-CLAP leert juist van die moeilijke gevallen. Hij leert: "Ah, als mensen een laag cijfer geven, moet ik de afstand tussen tekst en geluid vergroten."

4. Het Resultaat: Een Beter Cijfer

Toen ze de nieuwe AI testten, was het resultaat indrukwekkend:

De oude AI: Had een correlatie van ongeveer 0,28 met menselijke oordelen. Dat is alsof je een kompas hebt dat soms naar het noorden wijst, maar vaak ook een beetje naar het oosten.
De nieuwe Human-CLAP: Had een correlatie van ongeveer 0,45 of hoger. Dat is alsof je kompas nu veel nauwkeuriger is en veel dichter bij de echte menselijke mening ligt.

Het is alsof je van een ruwe schets bent gegaan naar een gedetailleerde tekening. De nieuwe AI kan nu veel beter voorspellen of een mens het geluid leuk of passend zal vinden.

Waarom is dit belangrijk?

Vroeger moesten mensen urenlang luisteren naar duizenden geluiden om te zien of een AI goed werk leverde. Met Human-CLAP kunnen we nu een computer laten zeggen: "Ik denk dat dit geluid perfect past bij de tekst, omdat het lijkt op wat mensen vinden."

Dit helpt bij het maken van betere muziek, betere geluidseffecten voor films, en zelfs voor mensen met een gehoorprobleem die tekst willen lezen in plaats van geluiden te horen. De AI heeft eindelijk een "menselijk gehoor" gekregen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Human-CLAP: Human-perception-based contrastive language–audio pretraining", gepresenteerd op de APSIPA ASC 2025.

Probleemstelling

Contrastive Language-Audio Pretraining (CLAP) is een fundamenteel model dat veel wordt gebruikt voor audio-generatie en herkenningstaken. Een veelgebruikte metriek voor het evalueren van de relevantie tussen tekst en gegenereerde audio in Text-to-Audio (TTA) systemen is de CLAPScore. Deze score is gebaseerd op de cosinus-afstand tussen de embedding-vectoren van tekst en audio.

Het paper identificeert echter een kritiek tekortkoming:

Lage correlatie met menselijke perceptie: Er is geen duidelijke relatie bewezen tussen de objectieve CLAPScore en subjectieve menselijke evaluatiescores. De auteurs tonen aan dat de bestaande CLAPScore slechts een lage correlatie heeft met hoe mensen de relevantie van een tekst-audiopaar beoordelen.
Ruis in trainingsdata: Bestaande CLAP-modellen worden getraind met de aanname dat alle tekst-audiopaarden in de dataset perfect overeenkomen. In werkelijkheid bevatten deze datasets echter ruis (bijv. teksten die niet alle inhoud van de audio beschrijven). Dit leidt ertoe dat het model ook voor ongeschikte paren een hoge similariteit kan voorspellen.
Kosten van datacollectie: Het verzamelen van schone, menselijk beoordeelde data is extreem kostbaar, waardoor een alternatieve aanpak nodig is om bestaande modellen te verbeteren met beperkte menselijke feedback.

Methodologie: Human-CLAP

De auteurs stellen Human-CLAP voor, een verfijning van een vooraf getraind CLAP-model (specifiek LAION CLAP) dat gebruikmaakt van menselijke subjectieve scores om de embedding-ruimte te optimaliseren.

1. Dataset en Voorbereiding:

Er werd gebruikgemaakt van de RELATE-dataset, die subjectieve scores bevat voor de relevantie tussen tekst en audio (een schaal van 0 tot 10).
De dataset bevat zowel natuurlijke audio (uit AudioCaps) als gegenereerde audio van diverse TTA-modellen (AudioLDM, AudioLDM2, Tango, Tango2).
De subjectieve scores werden geschaald naar het bereik [0, 1] om als target te dienen.

2. Trainingsframework en Loss Function:
In plaats van alleen te vertrouwen op contrastief leren (waarbij gepaarde items maximaal en ongepaarde items minimaal worden gescheiden), combineert Human-CLAP twee benaderingen:

Regressie-verlies (MSE/MAE): Het model wordt getraind om de voorspelde cosinus-similariteit ( $y_i$ ) direct te laten corresponderen met de menselijke target-score ( $a_i$ ).
- Formule: $L_{reg} = \frac{1}{N} \sum (a_i - y_i)^2$ (MSE) of absolute fout (MAE).
Gewogen Contrastief Verlies (wSCE): De auteurs introduceren een gewogen Symmetric Cross Entropy (SCE) loss. In tegenstelling tot standaard CLAP, waarbij alle paren even zwaar wegen, wordt de SCE loss hier gewogen met de menselijke score ( $a_i$ ).
- Dit betekent dat paren met een hoge menselijke beoordeling een sterkere drijfveer krijgen om dicht bij elkaar in de embedding-ruimte te komen, terwijl paren met een lage score minder gewicht krijgen of juist verder uit elkaar worden geduwd.
- Formule: $L_{wSCE} = -\frac{1}{2N} \sum a_i (\dots)$
Totale Loss: De uiteindelijke loss functie is een lineaire combinatie:
$L = \lambda_1 L_{wSCE} + \lambda_2 L_{reg}$
Waarbij $\lambda_1$ en $\lambda_2$ hyperparameters zijn (in het experiment ingesteld op 0.1 en 1).

Belangrijkste Bijdragen

Empirisch Bewijs van Discrepantie: De auteurs hebben voor het eerst kwantitatief aangetoond dat de standaard CLAPScore een lage correlatie heeft met menselijke subjectieve beoordelingen (Spearman's rank correlation coefficient (SRCC) rond de 0.28).
Human-CLAP Model: Introductie van een nieuwe architectuur die menselijke perceptie integreert in het trainingsproces van CLAP, gebruikmakend van slechts een fractie (ongeveer 1/320e) van de oorspronkelijke trainingsdata, maar dan wel met hoogwaardige menselijke labels.
Nieuwe Loss-strategie: De ontwikkeling van de wSCE loss, die de kracht van contrastief leren combineert met de precisie van regressie, specifiek afgestemd op menselijke perceptie.

Resultaten

De experimenten werden uitgevoerd op een testset van 2.405 tekst-audiopaarden. De prestaties werden gemeten aan de hand van SRCC, Lineaire Correlatie Coëfficiënt (LCC), Kendall's Tau (KTAU) en Mean Squared Error (MSE).

Verbeterde Correlatie: Human-CLAP (met wSCE + MAE) verbeterde de SRCC van 0.280 (bij de baseline LAION CLAP) naar 0.457. Dit is een stijging van meer dan 0.17, wat aangeeft dat de voorspellingen veel beter overeenkomen met menselijke oordelen.
Beste Prestatie: Het model dat gebruikmaakte van de combinatie wSCE + MAE behaalde de beste scores op bijna alle metrieken.
Analyse van Lage Scores: Een cruciale bevinding is dat modellen die alleen met regressie (MAE) werden getraind, moeite hadden om lage scores (dicht bij 0) correct toe te wijzen. De toevoeging van de gewogen contrastieve loss (wSCE) was essentieel om het model in staat te stellen om duidelijk onderscheid te maken tussen zeer relevante en niet-relevante paren.
Robuustheid: De verbetering was consistent voor zowel natuurlijke audio als gegenereerde audio van verschillende TTA-modellen.

Significantie

Dit paper is van groot belang voor het veld van audio-generatie en evaluatie:

Betrouwbare Evaluatiemetriek: Het biedt een oplossing voor het probleem dat huidige objectieve metrieken (zoals CLAPScore) niet betrouwbaar zijn als proxy voor menselijke tevredenheid. Human-CLAP biedt een betere metric voor het evalueren van Text-to-Audio systemen.
Efficiëntie: Het toont aan dat men geen enorme datasets nodig heeft om menselijke perceptie in AI-modellen te integreren; een klein, zorgvuldig geselecteerd dataset met menselijke scores volstaat om bestaande foundation-modellen aanzienlijk te verbeteren.
Toekomstige Richting: De methode suggereert dat toekomstige evaluaties van generatieve AI-modellen voor audio (en mogelijk andere modaliteiten) menselijke perceptie expliciet in de trainingscyclus moeten opnemen via dergelijke hybride loss-functies, in plaats van te vertrouwen op puur statistische overeenkomsten in embedding-ruimtes.

Human-CLAP: Human-perception-based contrastive language-audio pretraining

1. Het Probleem: De Verkeerde Leraar

2. De Oplossing: De "Menselijke Oor" (Human-CLAP)

3. Hoe werkt het? (De "Gewogen" Lijst)

4. Het Resultaat: Een Beter Cijfer

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Human-CLAP

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Neural Network Tuning of FSMPC for Drives

Universal Speech Content Factorization

A Policy-Aware Cross-Layer Auditing Service for Tiering and Throttling in Starlink

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Robust Wildfire Forecasting under Partial Observability: From Reconstruction to Prediction