Vectorized Adaptive Histograms for Sparse Oblique Forests

Dit paper introduceert een versnelde methode voor het trainen van sparse oblique random forests door dynamisch te schakelen tussen histogrammen en sorteren, gebruik te maken van vector-instructies en GPU-implementaties, wat resulteert in een 1,5 tot 2,5 keer snellere training dan bestaande methoden.

Ariel Lubonja, Jungsang Yoon, Haoyin Xu, Yue Wan, Yilin Xu, Richard Stotz, Mathieu Guillame-Bert, Joshua T. Vogelstein, Randal Burns

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Probleemstelling: De "Diepe Boom" die te langzaam groeit

Stel je voor dat je een enorme boomplantage wilt aanleggen om te voorspellen of een patiënt ziek is of niet. In de wereld van computers heet dit een Random Forest (een bos van beslissingsbomen). Normale bomen kijken naar één eigenschap per keer (bijvoorbeeld: "Is de temperatuur hoger dan 38 graden?").

De auteurs van dit paper werken met een speciale, slimme versie: Sparre Oblique Forests. Deze bomen kijken niet naar één eigenschap, maar maken een "mix" van veel eigenschappen tegelijk (bijvoorbeeld: "Is de temperatuur plus de bloeddruk minus de hartslag boven een bepaalde drempel?"). Dit maakt de bomen veel slimmer en accurater, maar het heeft een groot nadeel: ze worden extreem diep.

Het probleem is dat deze diepe bomen soms te langzaam groeien. Het is alsof je een boomplantage hebt waar de bovenste takken (de grote, belangrijke beslissingen) snel groeien, maar de duizenden kleine, diepe takjes (de fijne details) zo langzaam groeien dat de hele plantage stilstaat.

De Oplossing: Een Slimme "Schakelaar"

De onderzoekers (van Johns Hopkins en Google) hebben een slimme oplossing bedacht: Vectorized Adaptive Histograms. Laten we dit uitleggen met drie simpele ideeën:

1. De Slimme Schakelaar (Adaptieve Histograms)

Stel je voor dat je een groep mensen moet sorteren op lengte.

  • Bovenaan de boom (veel mensen): Je hebt een grote zaal vol met 10.000 mensen. Als je ze één voor één meet en in een lijst zet (sorteren), duurt dat eeuwig. De slimme truc is om ze snel in bakken te gooien: "Korte mensen in bak A, middelgrote in bak B, lange in bak C". Dit heet een histogram. Dit is supersnel bij grote groepen.
  • Onderaan de boom (weinig mensen): Nu kom je bij een klein takje waar maar 10 mensen staan. Het kost je nu meer tijd om die 10 bakken op te zetten en te vullen dan om ze gewoon één voor één te meten en te sorteren.

De innovatie: De software kijkt naar het aantal mensen in de groep.

  • Is het een grote groep? Gebruik de bakken-methode (histogram).
  • Is het een kleine groep? Gebruik de sorteer-methode.
    De computer schakelt dus automatisch en dynamisch tussen deze twee methoden, afhankelijk van hoe groot de groep is. Dit bespaart enorm veel tijd.

2. De Super-Snelheid (Vectorisatie)

Zelfs als je de bakken-methode gebruikt, moet je voor elke persoon beslissen in welke bak hij hoort. Normaal gesproken doet de computer dit als een mens die een lijst afloopt: "Is hij kleiner dan 10? Nee. Is hij kleiner dan 20? Ja, dan bak 2." Dit is traag omdat de computer steeds moet nadenken en wachten.

De onderzoekers hebben de computer laten werken als een superkrachtige machine die 16 mensen tegelijk bekijkt. In plaats van één voor één te vragen, gebruikt de computer speciale instructies (SIMD/vectorisatie) om 16 mensen in één flits te vergelijken met de bak-grenzen.

  • Vergelijking: Het is alsof je eerder 16 postbodes had die één brief per keer bezorgden, en nu 16 postbodes hebt die tegelijkertijd 16 brieven in één keer bezorgen. Dit maakt het proces 2 keer sneller.

3. De Krachtige Hulp (GPU)

Soms is de groep zo groot (bijvoorbeeld bij datasets met miljoenen mensen) dat zelfs de snelste computer (de CPU) het niet alleen kan. Dan roepen ze een GPU (een grafische kaart, zoals in gaming-computers) om hulp.

  • De GPU is een krachtige machine die goed is in het tegelijkertijd uitvoeren van duizenden simpele taken.
  • De onderzoekers hebben een systeem gemaakt dat de grootste, zwaarste taken naar de GPU stuurt, terwijl de normale computer de kleinere taken doet. Dit werkt als een team waar de zware lasten door de sterke arbeiders worden gedragen, terwijl de rest het lichte werk doet.

Wat is het resultaat?

Door deze drie trucjes te combineren, hebben ze de trainingstijd van deze slimme bomen 1,7 tot 2,5 keer verkort.

  • Op de grootste datasets (zoals medische gegevens met miljoenen punten) is het zelfs nog sneller.
  • Met de hulp van de GPU kunnen ze op de zwaarste datasets tot 40% sneller zijn.

Waarom is dit belangrijk?

Deze methode maakt het mogelijk om MIGHT (een zeer nauwkeurige medische algoritme) toe te passen op enorme datasets.

  • Vroeger: Het kostte uren of dagen om een model te trainen voor een ziekte zoals kanker, en het kon soms niet eens met de grootste datasets.
  • Nu: Door deze versnelling kunnen artsen en wetenschappers modellen trainen die veel nauwkeuriger zijn en die zelfs kunnen omgaan met datasets die groter zijn dan ooit tevoren (bijvoorbeeld met 440.000 genen tegelijk).

Kortom: Ze hebben een slimme "verkeersregelaar" gebouwd die voor elke groep mensen de snelste route kiest, en ze hebben de auto's vervangen door supersnelle treinen. Hierdoor kunnen we nu veel sneller en slimmer ziektes voorspellen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →