Human-CLAP: Human-perception-based contrastive language-audio pretraining

Dit paper introduceert Human-CLAP, een verbeterd taal-audiomodel dat is getraind op menselijke subjectieve beoordelingen om de zwakke correlatie tussen de bestaande CLAPScore en menselijke perceptie aanzienlijk te verbeteren.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi Saruwatari

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De "Menselijke Oor" voor AI: Hoe een nieuwe methode computers leert wat mensen echt horen

Stel je voor dat je een robot hebt die kunstzinnige geluiden maakt, zoals een regenbui of een zingende vogel. De robot vraagt aan een computer: "Hoe goed past dit geluid bij de tekst 'regenbui'?"

Tot nu toe gebruikten wetenschappers een slimme, maar soms verwarde robot-oortje genaamd CLAP. Deze robot-oortje kijkt naar de tekst en het geluid en zegt: "Ja, dat lijkt wel op elkaar!" Maar er is een probleem: de robot is niet altijd in lijn met wat een mens denkt. Soms zegt de robot dat een geluid perfect past, terwijl een mens denkt: "Nee, dat klinkt helemaal niet als regen."

In dit paper presenteren de onderzoekers een oplossing: Human-CLAP. Laten we uitleggen hoe dit werkt met een paar simpele vergelijkingen.

1. Het Probleem: De Verkeerde Leraar

Stel je voor dat je een kind leert om te tekenen. Je geeft het duizenden voorbeelden van "hond" en "kat". Maar sommige voorbeelden zijn slecht: een foto van een hond met de tekst "kat" erbij, of een vage tekening met de tekst "dier".

De oude AI (CLAP) leerde van al die voorbeelden, inclusief de fouten. Het leerde: "Als de tekst en het geluid op elkaar lijken, is het goed." Maar omdat de "leraar" (de dataset) soms slordig was, leerde de AI niet echt wat mensen voelen. Het was alsof de AI een cijfer gaf op basis van een lijstje, terwijl mensen luisterden met hun hart en oren.

De onderzoekers ontdekten dat de scores die de oude AI gaf, nauwelijks correleerden met wat mensen echt vonden. Het was alsof de AI een poppetje tekende en zei: "Dit is een perfect portret!", terwijl jij dacht: "Dat lijkt op een aardappel."

2. De Oplossing: De "Menselijke Oor" (Human-CLAP)

In plaats van de AI te laten gissen, gaven de onderzoekers de AI een menselijke leraar.

Ze namen een klein groepje echte mensen en vroegen hen: "Hoe goed past dit geluid bij deze tekst?" en gaven een cijfer van 0 (helemaal niet) tot 10 (perfect).

Vervolgens namen ze de oude AI en zeiden: "Kijk eens naar deze menselijke cijfers. Leer van onze mensen, niet van je oude, rommelige lijstje."

Dit is Human-CLAP. Het is alsof je de robot-oortje een paar uur laat luisteren naar echte mensen die eerlijk zeggen wat ze horen, in plaats van alleen naar een database te kijken.

3. Hoe werkt het? (De "Gewogen" Lijst)

De onderzoekers gebruikten een slimme truc om de AI te trainen. Ze gebruikten een nieuwe formule (een "verliesfunctie") die twee dingen combineert:

  • De oude manier: Kijk of tekst en geluid bij elkaar horen.
  • De nieuwe manier: Kijk naar het menselijke cijfer.

Stel je voor dat je een weegschaal hebt.

  • Als mensen zeggen: "Dit klinkt perfect!" (cijfer 10), dan weegt de AI dit zwaar. Hij moet zeker weten dat tekst en geluid perfect matchen.
  • Als mensen zeggen: "Dit klinkt raar..." (cijfer 2), dan weegt de AI dit ook zwaar. Hij moet leren dat tekst en geluid niet bij elkaar horen.

De oude AI negeerde vaak de slechte voorbeelden. De nieuwe Human-CLAP leert juist van die moeilijke gevallen. Hij leert: "Ah, als mensen een laag cijfer geven, moet ik de afstand tussen tekst en geluid vergroten."

4. Het Resultaat: Een Beter Cijfer

Toen ze de nieuwe AI testten, was het resultaat indrukwekkend:

  • De oude AI: Had een correlatie van ongeveer 0,28 met menselijke oordelen. Dat is alsof je een kompas hebt dat soms naar het noorden wijst, maar vaak ook een beetje naar het oosten.
  • De nieuwe Human-CLAP: Had een correlatie van ongeveer 0,45 of hoger. Dat is alsof je kompas nu veel nauwkeuriger is en veel dichter bij de echte menselijke mening ligt.

Het is alsof je van een ruwe schets bent gegaan naar een gedetailleerde tekening. De nieuwe AI kan nu veel beter voorspellen of een mens het geluid leuk of passend zal vinden.

Waarom is dit belangrijk?

Vroeger moesten mensen urenlang luisteren naar duizenden geluiden om te zien of een AI goed werk leverde. Met Human-CLAP kunnen we nu een computer laten zeggen: "Ik denk dat dit geluid perfect past bij de tekst, omdat het lijkt op wat mensen vinden."

Dit helpt bij het maken van betere muziek, betere geluidseffecten voor films, en zelfs voor mensen met een gehoorprobleem die tekst willen lezen in plaats van geluiden te horen. De AI heeft eindelijk een "menselijk gehoor" gekregen.