Zero-Cost NDV Estimation from Columnar File Metadata

Each language version is independently generated for its own context, not a direct translation.

De Kernvraag: Hoeveel unieke namen zitten er in een lijst, zonder de lijst te lezen?

Stel je voor dat je een gigantische bibliotheek hebt met miljoenen boeken (data). Je wilt weten hoeveel unieke auteurs er in die hele bibliotheek staan. Normaal zou je elke pagina van elk boek moeten lezen om dit te tellen. Dat kost enorm veel tijd en energie.

De auteurs van dit paper zeggen echter: "Wacht even! We hoeven de boeken niet eens open te maken. We kunnen het al weten door alleen naar de rug van de boeken (de metadata) te kijken."

Dit paper beschrijft een slimme truc om het aantal unieke waarden (bijvoorbeeld unieke klantnummers of namen) in een data-bestand te schatten, zonder dat je de data zelf hoeft te raadplegen. Dit heet "Zero-Cost" (nul kosten), omdat het geen extra tijd of opslagruimte kost.

De Twee Slimme Trucs

De auteurs gebruiken twee verschillende signalen die al in de bestandsinformatie staan verwerkt. Ze zijn als twee verschillende gereedschappen in een gereedschapskist; afhankelijk van de situatie gebruik je het ene of het andere.

1. De "Woordenboek-Truc" (Dictionary Inversion)

De Analogie:
Stel je voor dat je een woordenboek hebt. In een computer-bestand worden vaak herhalende woorden vervangen door korte nummers om ruimte te besparen.

"Alice" wordt 0
"Bob" wordt 1
"Charlie" wordt 2

Het bestand slaat op hoeveel ruimte het woordenboek zelf inneemt en hoeveel ruimte de nummers (de indices) innemen.
De Truc:
De auteurs zeggen: "Als we weten hoeveel ruimte het totaal inneemt, en we weten hoe lang een gemiddeld woord is, kunnen we de vergelijking omdraaien."
Het is alsof je de totale gewicht van een zak met appels en een zak met pottenkastjes weegt. Als je weet hoe zwaar een potkastje is, kun je uitrekenen hoeveel appels erin zitten, zonder ze te tellen.

Wanneer werkt dit? Als de unieke namen goed verspreid zitten over de verschillende boeken (row groups). Als "Alice" in bijna elk boek voorkomt, werkt deze methode perfect.

2. De "Loterij-Truc" (Min/Max Diversity)

De Analogie:
Stel je voor dat je 50 dozen hebt. In elke doos zit een lijst met namen.

De minima zijn de "laagste" naam in elke doos (bijv. de eerste naam alfabetisch).
De maxima zijn de "hoogste" naam in elke doos (de laatste naam).

Als je naar de 50 dozen kijkt, zie je hoeveel verschillende laagste en hoogste namen er zijn.
De Truc:
Dit werkt als een loterij (het "Coupon Collector"-probleem). Als je veel verschillende loten (minima/maxima) ziet, betekent dat dat er waarschijnlijk heel veel unieke nummers in de totale populatie zijn.

Wanneer werkt dit? Als de data gesorteerd is. Bijvoorbeeld: Doos 1 heeft namen A-M, Doos 2 heeft N-Z. Dan zie je bij elke doos een heel nieuwe "laagste" naam. Dit geeft een heel goed beeld van het totaal, zelfs als de "Woordenboek-truc" faalt.

De "Scheidsrechter" (Distribution Detector)

Het probleem is: welke truc moet je gebruiken?

Als de data willekeurig gemengd is, werkt de Woordenboek-truc het beste.
Als de data gesorteerd is (bijv. alfabetisch of op datum), werkt de Loterij-truc het beste.

De auteurs hebben een kleine "scheidsrechter" bedacht die naar de data kijkt (alleen de randen, niet de inhoud) en beslist welke methode het beste is.

Zie je veel overlap tussen de dozen? -> Gebruik Woordenboek-truc.
Zie je dat de dozen netjes naast elkaar liggen zonder overlap? -> Gebruik Loterij-truc.

Uiteindelijk nemen ze het hoogste getal van beide methoden. Waarom? Omdat beide methoden soms te laag schatten, maar zelden te hoog. Het hoogste getal is dus het veiligste schatting.

Waarom is dit nuttig?

Stel je voor dat je een supercomputer (een GPU) hebt die deze data moet verwerken. Deze computer heeft beperkt geheugen.

Als je weet dat er ongeveer 1.000 unieke namen zijn, kun je precies het juiste geheugen toewijzen.
Als je denkt dat het 100 zijn, maar het zijn er 10.000, crasht de computer.
Als je denkt dat het 100.000 zijn, maar het zijn er 100, verspil je dure geheugen.

Met deze methode weten de computersystemen (zoals die bij VoltronData) direct hoeveel ruimte ze nodig hebben, zonder eerst de hele data te hoeven scannen. Het is alsof je de inhoud van een koffer kunt voorspellen door alleen naar het gewicht en de afmetingen van de koffer te kijken.

Samenvatting in één zin

De auteurs hebben een manier bedacht om het aantal unieke items in een data-bestand te raden door slimme wiskunde toe te passen op de "etiketten" van het bestand, zodat computers sneller en efficiënter kunnen werken zonder de data zelf te hoeven openen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bij het bouwen van Theseus, een GPU-versnelde gedistribueerde query-engine bij VoltronData, was het essentieel om nauwkeurige schattingen te hebben van het aantal unieke waarden (NDV - Number of Distinct Values) in kolommen. Deze schattingen zijn cruciaal voor:

Kostengebaseerde query-optimalisatie (bijv. het bepalen van join-volgorde).
Het pushen van aggregaties.
Toewijzing van GPU-geheugen voor kernels.

Het probleem is dat in bestaande columnar bestandsformaten (zoals Apache Parquet) het veld distinct_count in de metadata bijna nooit wordt ingevuld. Het berekenen van een exacte telling is te duur, en het bijhouden van schetsen (zoals HyperLogLog) vereist extra schrijfinfrastructuur of data-toegang, wat het doel van "planning alleen op basis van metadata" ondermijnt. De vraag was: Welke kardinaliteitsinformatie is al impliciet gecodeerd in de bestaande metadata zonder extra opslag of data-toegang?

Methodologie

De auteur presenteert een methode die twee complementaire signalen uit de bestaande metadata exploiteert en deze combineert via een lichte distributiedetecteur.

1. Inversie van de Dictionary-Storage-vergelijking

Voor kolommen met dictionary-encoding (vaak gebruikt voor kolommen met lage tot middelhoge kardinaliteit) geldt een specifieke relatie tussen de opslaggrootte en het aantal unieke waarden.

Principe: De metadata bevat de total_uncompressed_size ( $S$ ), het aantal rijen ( $N$ ), het aantal nulls, en de gemiddelde lengte van waarden ( $len$ ).
Formule: $S = ndv \times len + (N - nulls) \times \lceil \log_2(ndv) \rceil / 8$ .
Oplossing: Door deze vergelijking om te draaien (inversie) voor $ndv$ , kan een schatting worden gemaakt. Dit wordt opgelost met de Newton-Raphson-methode.
Voorwaarde: Deze methode is nauwkeurig wanneer unieke waarden goed verspreid zijn over de verschillende "row groups" (rijgroepen).

2. Diversiteit van Min/Max-statistieken (Coupon Collector Model)

Parquet slaat per rijgroep de minimum- en maximumwaarden op.

Principe: Het aantal unieke min- en max-waarden over alle rijgroepen heen fungeert als een impliciete schets van de kardinaliteit.
Model: Dit wordt gemodelleerd als het Coupon Collector-probleem. Als men $n$ rijgroepen heeft, is het aantal waargenomen unieke min/max-waarden een steekproef uit de totale populatie van unieke waarden.
Oplossing: Door de verwachte waarde van het coupon collector-model om te draaien, kan de totale NDV worden geschat.
Sterkte: Deze methode werkt uitstekend voor gesorteerde of gepartitioneerde data, waar dictionary-inversie vaak tekortschiet omdat waarden niet willekeurig verspreid zijn.

3. Distributiedetectie en Combinatie

Om te bepalen welke methode het beste werkt, wordt een distributiedetecteur gebruikt die analyseert op basis van:

Overlap: Hoeveel overlappen de bereikwaarden (min/max) van opeenvolgende rijgroepen?
Monotonie: Is er een duidelijke stijgende of dalende trend in de middenpunten van de bereiken?

De classificatie leidt tot de volgende keuze:

Goed verspreid (Well-spread): Dictionary-inversie is betrouwbaar.
Gesorteerd/Gepartitioneerd: Min/Max-diversiteit is betrouwbaar.
Gemengd: Beide schattingen worden gebruikt.

Finale Schatting: Het uiteindelijke resultaat is het maximum van beide schattingen, begrensd door het aantal niet-null waarden en type-specifieke bovengrenzen (bijv. het bereik van een integer).

Belangrijkste Bijdragen

Gesloten Formule: Een afgeleide vergelijking die NDV relateert aan de dictionary-opslaggrootte, opgelost via Newton-Raphson.
Impliciete Schetsen: Het inzicht dat rijgroep-min/max-statistieken fungeren als kardinaliteitsschetsen, waarbij NDV kan worden hersteld via inversie van het coupon collector-model.
Hybride Routering: Een lichtgewicht detector die de data-layout classificeert en de meest geschikte schatter selecteert.
Geheugenvoorspelling: Een methode om de dictionary-geheugenvraag voor GPU-batches te voorspellen zonder de data te lezen, gebaseerd op het coupon collector-model.

Resultaten

Implementatie: De techniek is geïmplementeerd in de Theseus-engine en getest op productie-werklasten.
Nauwkeurigheid: Voor goed verspreide kolommen liggen de foutmarges doorgaans onder de 10%.
Robuustheid: De hybride aanpak lost het probleem op van systematische onderschatting bij gesorteerde data (waar alleen dictionary-inversie zou falen).
Complexiteit: Alle operaties zijn $O(n)$ in tijd (waar $n$ het aantal rijgroepen is) en $O(1)$ in ruimte, wat betekent dat ze zeer efficiënt zijn en slechts één keer door de metadata hoeven te gaan.
Opmerking: De originele implementatie en experimentele data zijn verloren gegaan door de liquidatie van VoltronData; dit artikel reconstructeert de aanpak op basis van geheugen.

Betekenis en Toepassingsgebied

Zero-Cost: De methode vereist geen extra opslag (geen HyperLogLog-sketches schrijven) en geen data-toegang (geen scannen van data-pagina's). Het werkt puur op bestaande metadata.
Algemene Toepasbaarheid: Hoewel getest op Apache Parquet, is de techniek generaliseerbaar naar elk columnair formaat dat dictionary-encoding en partitie-niveau statistieken ondersteunt, zoals ORC en F3.
Impact: Het stelt query-engines in staat om betere beslissingen te nemen over geheugentoewijzing en query-planning, wat essentieel is voor high-performance systemen zoals GPU-versnelde databases.

Kortom, dit artikel biedt een elegante wiskundige oplossing om een cruciale statistiek (NDV) te extraheren uit informatie die al in bestandsmetadata aanwezig is, maar die eerder werd genegeerd voor dit specifieke doel.