Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

Dit artikel presenteert een praktische crowdsourcing-aanpak voor het opzetten van een betrouwbaar experimentframework en een systematische datastrategie, wat resulteert in YT-NTU-AVQ, tot nu toe het grootste en meest diverse dataset voor audio-visuele kwaliteitsbeoordeling met 1.620 gebruikersgegenereerde sequenties.

Renyu Yang, Jian Jin, Lili Meng, Meiqin Liu, Yilin Wang, Balu Adsumilli, Weisi Lin

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een supersterke robot wilt bouwen die kan beoordelen hoe goed een video is. Maar om die robot slim te maken, moet je hem eerst duizenden voorbeelden laten zien: filmpjes met goed geluid, slecht geluid, mooie beelden, wazige beelden, en alles daartussenin.

Het probleem? De bestaande verzamelingen met voorbeelden (datasets) zijn te klein, te saai en vaak gemaakt in een steriele laboratoriumomgeving. Dat is alsof je iemand wilt leren zwemmen door alleen maar in een zwembad te oefenen, terwijl ze later in de ruwe zee moeten springen.

De auteurs van dit paper hebben een oplossing bedacht: een gigantische, echte verzameling maken door duizenden gewone mensen online te vragen hun mening te geven. Hier is hoe ze dat deden, vertaald in alledaags taal:

1. Het Grote Online Experiment (Crowdsourcing)

In plaats van mensen in een stil lab te zetten met dure apparatuur, hebben de onderzoekers een online platform gemaakt. Ze hebben duizenden mensen gevraagd om naar filmpjes te kijken en te luisteren.

  • De Uitdaging: Mensen kijken thuis op hun telefoon, laptop of tablet, soms met slechte koptelefoons en in een luide kamer. Dat klinkt als een ramp voor wetenschap, toch?
  • De Oplossing: Ze hebben een slim "veiligheidsnet" gebouwd.
    • De Check: Voordat je mag beginnen, moet je bevestigen dat je in een rustige ruimte zit en koptelefoons gebruikt.
    • De Training: Je krijgt een korte les en een paar oefenfilmpjes om te leren hoe je moet scoren.
    • De Filter: Als iemand tijdens het experiment begint te kletsen, de video overslaat of willekeurige cijfers invult, wordt hun antwoord eruit gehaald. Het is alsof je een selectieproces hebt waarbij je alleen de mensen houdt die echt goed hebben opgelet.

2. De "Gouden Middenweg" Strategie

Ze wilden niet alleen "perfecte" filmpjes of alleen "vreselijke" filmpjes. Ze wilden een eerlijke mix van alles.

  • Ze gebruikten een slim systeem (een soort digitale magneet) om duizenden filmpjes van YouTube te vissen die net even anders waren: sommige met veel muziek, sommige met veel praten, sommige met slechte beeldkwaliteit.
  • Daarna hebben ze er handmatig nog een paar honderd aan toegevoegd om te zorgen dat er ook filmpjes van de laatste jaren bij zaten (want oude filmpjes zijn vaak verouderd).
  • Het resultaat? YT-NTU-AVQ: De grootste en meest diverse verzameling van 1.620 filmpjes ter wereld tot nu toe.

3. Wat hebben ze ontdekt? (De verrassende conclusie)

Toen ze alle data analyseerden, vonden ze iets interessants over hoe onze hersenen werken:

  • Het beeld is koning: Bij het beoordelen van een video met geluid, laten mensen zich vooral leiden door hoe het beeld eruitziet. Als het beeld goed is, vinden ze het geluid vaak ook wel "goed genoeg", zelfs als het niet perfect is.
  • Maar... we letten wel op fouten: Als het geluid echt vreselijk is, dan merken ze het wel. En als het beeld goed is maar het geluid slecht, dan kijken ze juist meer naar het geluid om hun oordeel te vormen. Het is alsof we een "veiligheidsanker" hebben: we vertrouwen op het beste deel, maar als er een groot gat in zit, springen we daar direct op in.

Waarom is dit belangrijk?

Vroeger moesten onderzoekers in dure laboratoria zitten om deze data te verzamelen. Dat is traag en duur. Dit paper bewijst dat je met slimme regels en duizenden vrijwilligers online net zo goede (of zelfs betere) resultaten kunt krijgen.

Het is alsof je vroeger alleen maar kon leren over de wereld door in een bibliotheek te zitten, maar nu kun je duizenden reizigers vragen om hun foto's en verhalen te delen. Je krijgt zo een veel completer en realistischer plaatje van hoe de wereld (en onze perceptie van media) er echt uitziet.

Kortom: Ze hebben een manier gevonden om een gigantische, realistische "school" voor AI te bouwen, zodat de robots van de toekomst niet alleen in theorie, maar ook in de echte, rommelige wereld goed kunnen oordelen over video's en geluid.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →