VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Each language version is independently generated for its own context, not a direct translation.

VoxKnesset: Een Luisterend Oog op de Veroudering van de Stem

Stel je voor dat je stem een oude, kostbare wijn is. Elke dag dat je ouder wordt, verandert de smaak van die wijn een beetje. Soms wordt hij voller, soms wat scherper, en na twintig jaar is hij totaal anders dan op de dag dat je hem voor het eerst proefde.

Nu, stel je voor dat je een robot hebt die je moet herkennen aan je stem (zoals bij een slimme telefoon of een beveiligingssysteem). Het probleem is: de meeste robots zijn getraind om je te herkennen op basis van hoe je klinkt vandaag. Ze weten niet hoe je stem er over tien jaar uit zal zien. Als je ze vandaag leert, en je belt ze over een jaar op, raken ze in de war. Ze denken: "Hé, dit klinkt niet meer als de persoon die ik ken!"

Dit is precies het probleem dat de onderzoekers van het Weizmann Instituut in Israël hebben opgelost met hun nieuwe project: VoxKnesset.

Wat is VoxKnesset eigenlijk?

Stel je een gigantische bibliotheek voor, maar in plaats van boeken, zitten er hier 2.300 uur aan opnames van de Israëlische parlementsvergaderingen (de Knesset). Deze opnames lopen van 2009 tot 2025.

Het unieke aan deze bibliotheek is dat ze niet gewoon willekeurige mensen hebben opgenomen. Ze hebben 393 specifieke politici gevolgd. Ze hebben naar hun stem geluisterd terwijl ze jonger waren, en ze hebben naar diezelfde stem geluisterd terwijl ze ouder werden. Soms met een gat van 15 jaar tussen de opnames!

Het is alsof je een film hebt van iemand die elke dag een foto maakt van zichzelf, maar dan met geluid. En het allerbelangrijkste: ze hebben ook de "identiteitskaart" van elke spreker (leeftijd, geslacht, afkomst) gecontroleerd en kloppend gemaakt.

Waarom is dit zo'n grote doorbraak?

Vroeger hadden we twee soorten datasets, en beide hadden een groot gebrek:

De "Snapshot"-bibliotheek: Hierin heb je duizenden mensen, maar je hebt ze alleen maar één keer opgenomen. Het is alsof je een fotoalbum hebt met duizenden mensen, maar je weet niet hoe ze eruitzagen toen ze ouder werden. Je kunt dus niet leren hoe veroudering werkt.
De "Verouderings"-bibliotheek: Hierin heb je mensen die je wel vaker hebt opgenomen, maar dan vaak maar met een paar mensen, of zonder betrouwbare gegevens over hun leeftijd. Het is alsof je een film hebt van iemand die veroudert, maar je weet niet hoe oud ze precies zijn op elke foto.

VoxKnesset is de perfecte mix. Het heeft de schaal van de eerste (veel mensen, veel uren) en de diepgang van de tweede (dezelfde mensen over een lange tijd). Het is de eerste keer dat we een enorme, betrouwbare dataset hebben in het Hebreeuws om te zien hoe stemmen echt verouderen.

Wat hebben ze ontdekt?

De onderzoekers hebben deze dataset gebruikt om moderne AI-systemen te testen. Ze stelden drie belangrijke vragen:

Herkent de AI de veroudering?
Ja, maar het is lastig. Als je een AI traint om de leeftijd van een stem te raden op basis van één opname, werkt dat goed. Maar als diezelfde AI probeert te raden hoeveel tijd er is verstreken tussen twee opnames van dezelfde persoon, faalt hij vaak. Het is alsof je iemand vraagt: "Hoeveel jaar is deze persoon ouder geworden?" en de AI zegt: "Ik denk dat hij 2 jaar ouder is," terwijl het er eigenlijk 10 zijn. De AI ziet het verschil tussen mensen, maar mist het verschil binnen één persoon.
Wat gebeurt er met de beveiliging?
Dit is het meest zorgwekkende. Als je een stemslot gebruikt dat je vandaag instelt, en je probeert het over 15 jaar te openen, werkt het veel minder goed. De foutkans (de kans dat de robot denkt dat je een ander bent) verdubbelt bijna. De stem van de "oude" persoon klinkt voor de computer te anders dan de "jonge" versie.
Kan AI dit leren?
Ja! Als je de AI specifiek traint om de verandering te zien (door naar paar opnames van dezelfde persoon te kijken in plaats van losse opnames), dan kan hij die veroudering wel begrijpen. Het is alsof je de AI leert niet alleen naar de wijn te kijken, maar ook naar hoe de fles veroudert.

Waarom is dit belangrijk voor ons allemaal?

We leven in een wereld waar stemmen steeds vaker worden gebruikt als sleutel: om je telefoon te ontgrendelen, om bankzaken te regelen, of om medische diagnoses te stellen.

Als die systemen niet leren omgaan met het feit dat we ouder worden, zullen ze in de toekomst steeds vaker falen. Je wordt geweigerd omdat je stem "veranderd" is, terwijl je gewoon ouder bent geworden.

VoxKnesset is de sleutel om dit op te lossen. Het is een trainingsveld voor de robots, zodat ze leren dat veroudering normaal is. Zo kunnen we in de toekomst stemsystemen bouwen die niet alleen je stem herkennen, maar ook begrijpen dat jij, net als een goede wijn, met de tijd alleen maar rijper wordt.

Kortom: Ze hebben een tijdmachine gebouwd (in de vorm van data) om AI te leren hoe de menselijke stem echt verandert, zodat de technologie van morgen niet verouderd raakt.

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Wat is VoxKnesset eigenlijk?

Waarom is dit zo'n grote doorbraak?

Wat hebben ze ontdekt?

Waarom is dit belangrijk voor ons allemaal?

Probleemstelling

Methodologie: VoxKnesset Dataset

Belangrijkste Resultaten

Bijdragen

Betekenis en Toekomstperspectief

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Wat is VoxKnesset eigenlijk?

Waarom is dit zo'n grote doorbraak?

Wat hebben ze ontdekt?

Waarom is dit belangrijk voor ons allemaal?

Probleemstelling

Methodologie: VoxKnesset Dataset

Belangrijkste Resultaten

Bijdragen

Betekenis en Toekomstperspectief

Meer zoals dit

Keep Ballots Secret: On the Futility of Social Learning in Decision Making by Voting

Social Teaching: Being Informative vs. Being Right in Sequential Decision Making

Beyond Binomial and Negative Binomial: Adaptation in Bernoulli Parameter Estimation

Homotopy type theory as a language for diagrams of ∞\infty∞-logoses

One is all you need: Second-order Unification without First-order Variables

Homotopy type theory as a language for diagrams of $\infty$ -logoses