MUSS: Multilevel Subset Selection for Relevance and Diversity

Dit paper introduceert MUSS, een nieuwe multilevel-methode voor relevante en diverse subsetselectie die in vergelijking met bestaande technieken zoals MMR en DGDS aanzienlijk sneller is, betere prestaties levert in toepassingen zoals aanbevelingssystemen en RAG, en theoretisch wordt onderbouwd door een constante factor-benadering van het optimale doel.

Vu Nguyen, Andrey Kan

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

MUSS: De Slimme Boekhouder van de Digitale Wereld

Stel je voor dat je een enorme bibliotheek binnenloopt met miljoenen boeken. Je wilt een lijstje maken van de 50 beste boeken om te lezen. Maar er zijn twee regels:

  1. De boeken moeten interessant zijn (relevantie).
  2. De boeken moeten verschillend zijn (diversiteit). Je wilt niet 50 boeken over dezelfde onderwerp, zoals 50 boeken over "hoe je een broodje maakt". Je wilt er één over brood, één over ruimtevaart, één over geschiedenis, enzovoort.

Dit klinkt makkelijk, maar voor een computer is dit een nachtmerrie. Er zijn zoveel mogelijke combinaties dat het zelfs voor de snelste supercomputers onmogelijk is om alle opties te bekijken. De oude manier om dit op te lossen (genaamd MMR) was als een persoon die boek per boek door de hele bibliotheek loopt, telkens kijkend: "Is dit boek leuk? Is het anders dan de vorige?" Dit duurt eeuwen als de bibliotheek groot is.

Een latere methode (DGDS) probeerde dit op te lossen door de bibliotheek in verschillende kamers te verdelen en mensen in die kamers tegelijkertijd te laten werken. Maar aan het einde moesten ze al die boeken weer in één grote hoop gooien om de definitieve top 50 te kiezen. Die stap was weer te traag en rommelig.

De oplossing: MUSS

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd MUSS. Ze gebruiken een slimme truc die we kunnen vergelijken met het organiseren van een groot festival.

De Analogie: Het Festival van de Ideeën

In plaats van alle miljoenen bezoekers (data) één voor één te bekijken, doet MUSS het volgende:

  1. De Groepen (Clustering):
    Stel je voor dat je alle bezoekers van het festival in groepjes verdeelt op basis van wat ze leuk vinden. Er is een groep "Rock", een groep "Jazz", een groep "Techno", enzovoort. In de digitale wereld noemen ze dit clustering.

    • Oude methode: Iedereen doorzoeken.
    • MUSS: Eerst de groepen indelen.
  2. De Selectie van Groepen:
    Nu hoeft de festivalorganisator niet naar iedereen te kijken. Ze kiezen eerst de beste groepen. Misschien is de "Rock"-groep heel groot en leuk, maar de "Techno"-groep is saai. Ze kiezen dus alleen de top-groepen uit.

    • Waarom? Dit is als het weggooien van hele tenten waar niemand naar luistert. Je verkleint de zoekruimte enorm.
  3. De Selectie binnen de Groepen:
    Binnen de gekozen "Rock"-groep kiezen ze nu de beste 5 bands. Binnen de "Jazz"-groep kiezen ze de beste 5. Dit kunnen ze allemaal tegelijkertijd doen (parallel), omdat de groepen niets met elkaar te maken hebben.

  4. De Finale:
    Nu hebben ze een lijstje met misschien 50 bands (5 uit elke groep). Ze hoeven niet meer te kijken naar de 10.000 bands die in de saaiere groepen zaten. Ze kiezen de allerbeste 50 uit deze kleine lijst.

Waarom is dit zo goed?

  • Snelheid: Omdat ze eerst hele groepen weggooien die niet interessant zijn, moeten ze veel minder rekenwerk doen. In de test bleek MUSS 20 tot 80 keer sneller te zijn dan de oude methoden. Het is alsof je in plaats van de hele bibliotheek te doorzoeken, alleen nog maar de drie beste kasten bekijkt.
  • Kwaliteit: Door slim te kiezen welke groepen belangrijk zijn, vinden ze vaak betere combinaties dan de oude methoden. Ze vinden bijvoorbeeld een perfect mix van een rocknummer en een jazznummer, terwijl de oude methode misschien per ongeluk twee rocknummers koos omdat ze die eerder zagen.
  • Wiskundig Bewijs: De auteurs hebben ook bewezen dat hun methode wiskundig gezien altijd een heel goed resultaat levert, zelfs als het niet perfect is. Ze hebben een "garantie" dat ze nooit ver weg van het ideale antwoord zitten.

Waar wordt dit voor gebruikt?

Deze techniek wordt al ingezet in de echte wereld, bijvoorbeeld bij:

  • Online Winkels (zoals Amazon): Als je op een website kijkt, wil je niet 100 identieke sokken zien. Je wilt een paar sokken, maar ook een t-shirt en een hoed. MUSS helpt om die perfecte mix van producten te vinden die je waarschijnlijk leuk zult vinden, maar die ook verschillend zijn.
  • Vragen beantwoorden met AI: Als je een AI vraagt iets te weten, moet de AI eerst de juiste stukjes informatie uit een enorme database halen. MUSS helpt de AI om de beste en meest verschillende stukjes informatie te kiezen, zodat het antwoord compleet en accuraat is.

Kortom:
MUSS is als een slimme boekhouder die niet elke cent afzonderlijk telt, maar eerst de grote mappen sorteert, de belangrijkste mappen kiest, en dan pas de details bekijkt. Hierdoor wordt het werk veel sneller, maar blijft het resultaat juist en divers.