A Dataset is Worth 1 MB

In dit paper wordt PLADA voorgesteld, een methode die de overdracht van datasets tot minder dan 1 MB reduceert door alleen labels te verzenden en een referentiedataset lokaal te filteren, waardoor hoge classificatieprestaties worden behaald zonder pixelgegevens te hoeven doorsturen.

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een heel museum in een postkaart stopt

Stel je voor dat je een enorme bibliotheek hebt vol met boeken (de server). Je wilt dat duizenden mensen (de klanten) een specifiek hoofdstuk uit een van die boeken leren, maar ze wonen ver weg en hebben een heel slechte internetverbinding. Misschien zitten ze zelfs onder water of op een andere planeet, waar het sturen van een enkel woord dagen duurt.

Normaal gesproken zou je de hele bibliotheek moeten kopiëren en per post naar iedereen sturen. Dat is onmogelijk: te duur, te langzaam en te veel data.

De auteurs van dit paper hebben een slimme oplossing bedacht, genaamd PLADA. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Vaste Bibliotheek" (De Referentiedataset)

In plaats van dat de server de boeken naar de klanten stuurt, doen de klanten het omgekeerde. Elke klant heeft al een enorme, standaard bibliotheek in huis (bijvoorbeeld ImageNet, een verzameling van 14 miljoen foto's van alles en nog wat: honden, auto's, bloemen, wolken, enzovoort).

De klant hoeft deze bibliotheek niet te downloaden; die zit er al. Het probleem is alleen: de klant weet niet welke foto's belangrijk zijn voor de taak die hij moet leren (bijvoorbeeld: "herken ziekte X in een röntgenfoto").

2. De "Postkaart" (Pseudo-Labels)

De server doet nu iets slim. In plaats van de foto's zelf te sturen, kijkt de server naar de foto's in de bibliotheek van de klant en zegt: "Voor deze foto is het antwoord 'A', voor die foto is het 'B', en voor die andere is het 'C'."

De server stuurt alleen de antwoorden (de labels) naar de klant.

  • Een foto is als een zware koffer (groot bestand).
  • Een antwoord (een getal of woord) is als een postkaart (klein bestand).

De server stuurt dus geen zware koffers, maar alleen een lijstje met postkaarten. Dit is extreem klein: vaak minder dan 1 Megabyte. Dat is kleiner dan een paar seconden muziek!

3. De "Schoonmaakbeurt" (Pruning)

Er is een probleem: de bibliotheek van de klant bevat ook foto's die totaal niets met de taak te maken hebben. Als de server zegt: "Deze foto van een ijsbeer is een 'ziektesymptoom'", dan raakt de klant in de war.

De server gebruikt daarom een slimme filter (een schoonmaakbeurt):

  • De server kijkt welke foto's in de bibliotheek het meest lijken op de echte ziekte.
  • Alle andere foto's (zoals ijsberen of auto's) worden genegeerd.
  • Alleen de "beste" foto's krijgen een label.

Dit is alsof je in een berg met 14 miljoen foto's alleen de 100 foto's eruit haalt die écht relevant zijn, en die 100 foto's labelt. De rest laat je liggen.

4. De "Veiligheidsnet" (Safety-Net)

Soms zijn er zeldzame soorten ziektes (of zeldzame dieren) die maar op een paar foto's voorkomen. Als je alleen de "beste" foto's kiest, krijg je misschien alleen foto's van de meest voorkomende ziekte, en vergeten de zeldzame.

Om dit te voorkomen, gebruikt de methode een veiligheidsnet:

  • De server zorgt ervoor dat er voor elke categorie (ook de zeldzame) minimaal een paar foto's worden geselecteerd, zelfs als ze niet perfect zijn.
  • Dit zorgt ervoor dat de klant een eerlijk beeld krijgt van alle soorten, niet alleen de populaire.

Waarom is dit zo geweldig?

  • Snelheid: Je kunt een hele taak overdragen in een paar seconden, zelfs via een heel trage verbinding (zoals onderwater).
  • Kwaliteit: De klanten leren hun eigen modellen op hun eigen manier, wat beter werkt dan het sturen van een kant-en-klaar model dat misschien niet past bij hun apparatuur.
  • Efficiëntie: In plaats van gigabytes aan data te sturen, stuur je minder dan 1 MB.

Kort samengevat:
In plaats van dat de server de hele bibliotheek (de data) naar jou stuurt, stuurt hij je een lijstje met instructies: "Kijk in je eigen bibliotheek naar foto nummer 102, 450 en 890. Onthoud dat nummer 102 een 'hond' is, 450 een 'kat' en 890 een 'auto'." Jij leert dan zelf wat je moet doen met die informatie.

Dit maakt het mogelijk om slimme systemen te bouwen op plekken waar normaal gesproken geen internet is, of waar data sturen onbetaalbaar duur is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →