Accounting for shared covariates in semi-parametric Bayesian additive regression trees

Each language version is independently generated for its own context, not a direct translation.

Titel: De Slimme Boomgaard: Hoe een nieuwe methode beter begrijpt waarom leerlingen slagen

Stel je voor dat je een enorme tuin hebt met duizenden bomen. Elke boom vertegenwoordigt een leerling, en de vruchten die ze dragen zijn hun cijfers in wiskunde. Je wilt weten: Wat maakt dat sommige bomen meer vruchten dragen dan andere?

In de wereld van data-analyse proberen wetenschappers vaak een simpele vergelijking te gebruiken: "Als je ouders hoog opgeleid zijn, krijg je een hoger cijfer." Dit is als een rechte lijn trekken door de tuin. Maar het leven is niet zo rechtlijnig. Soms helpt het om uren huiswerk te maken, maar als je al 90 minuten doet, wordt het juist averechts. Soms werkt schooldiscipline alleen goed als de leraar ook streng is. Deze complexe, kromme relaties en verborgen samenwerkingen tussen factoren zijn lastig te vangen met simpele lijnen.

Hier komt de BART-methode (Bayesian Additive Regression Trees) om de hoek kijken. Je kunt je BART voorstellen als een team van duizenden kleine, slimmeriken die elk een klein stukje van de tuin bekijken. Samen kunnen ze een heel complex, kromme lijn tekenen die perfect past bij de data. Het probleem? Je kunt niet goed zien welke specifieke factor (zoals "ouders' opleiding") precies wat doet, omdat het team van slimmeriken alles door elkaar haalt. Het is een "black box": je ziet het resultaat, maar niet hoe het werkt.

Het oude probleem: De gescheiden tuin

Eerder hebben wetenschappers een oplossing bedacht (SSP-BART) om dit op te lossen. Ze hebben de tuin in tweeën gedeeld:

De "Belangrijke" Sectie: Hier staan alleen de factoren die we echt willen begrijpen (zoals "ouders' opleiding"). Deze worden met een simpele, rechte lijn gemeten.
De "Rest" Sectie: Alle andere factoren (zoals "hoe vaak je honger hebt" of "of je een tablet hebt") gaan naar de slimmeriken (de BART-trees) om de complexe kromme lijnen te tekenen.

Het probleem met deze oude methode: Ze hebben een muur tussen de twee secties gezet. Ze dachten: "Als we de belangrijke factoren ook in de 'Rest' sectie toelaten, raken we in de war." Maar in de echte wereld werken factoren vaak samen! Wat als "ouders' opleiding" alleen werkt als er ook "veel huiswerk" wordt gemaakt? De oude methode kon deze samenwerking niet zien, omdat ze de factoren uit elkaar hielden. Het was alsof je probeert te begrijpen hoe een cake smaakt, maar je de suiker en het bloem in twee verschillende bakken doet en ze nooit mengt.

De nieuwe oplossing: CSP-BART (De Slimme Boomgaard)

De auteurs van dit paper hebben een nieuwe methode bedacht: CSP-BART. Ze gooien de muur weg en laten de belangrijke factoren weer in beide secties meespelen. Maar ze hebben een slimme truc bedacht om de verwarring te voorkomen.

Stel je voor dat je een chef-kok bent die een recept maakt:

De Lineaire Component (De Basis): Dit is je basisrecept. Je zegt: "We gebruiken 200 gram bloem en 100 gram suiker." Dit is de simpele, begrijpbare invloed van de belangrijke factoren.
De BART-Component (De Creatieve Chef): Deze chef mag experimenteren met de interacties. Hij zegt: "Oh, als je de suiker en de bloem samen verwarmt, gebeurt er iets magisch!"

De Magische Truc (De 'Dubbele Groei' en 'Dubbele Snoei'):
In het verleden, als de creatieve chef (BART) ook begon te praten over "bloem" (een belangrijke factor), dacht de basischef: "Wacht, ik heb die al gemeten! Wie doet het nu?" Dit leidde tot ruzie en onduidelijke resultaten.

De nieuwe methode gebruikt twee nieuwe regels voor de creatieve chef:

Dubbele Groei (Double-Grow): Als de chef een belangrijke factor (zoals "bloem") gebruikt om een tak te maken, moet hij direct daarna nog een tweede tak maken met een andere factor. Hij mag niet alleen over "bloem" praten. Hij moet altijd een combinatie maken (bijv. "bloem + suiker"). Zo zorgt hij ervoor dat hij alleen de samenwerking meet, en niet de basisfactor zelf.
Dubbele Snoei (Double-Prune): Als de chef per ongeluk een tak snoeit die alleen over "bloem" ging, snoeit hij direct nog een keer, zodat de tak helemaal weg is. Zo blijft de basischef de enige die over de "bloem" zelf praat.

Waarom is dit belangrijk voor de schoolresultaten?

De auteurs hebben deze methode getest op echte data van TIMSS 2019, een grote internationale test voor wiskunde. Ze wilden weten wat er gebeurt met de cijfers van leerlingen in Ierland.

Met de oude methode (SSP-BART) zagen ze alleen simpele lijnen. Met de nieuwe methode (CSP-BART) ontdekten ze verrassende dingen:

Huiswerk: Meer huiswerk is goed, maar alleen tot een punt. Als leerlingen meer dan 90 minuten per dag huiswerk maken, daalt hun cijfer weer. Misschien omdat ze dan al zo moe zijn of moeite hebben met de stof? De oude methode zag dit niet, omdat ze dachten dat "meer huiswerk = beter cijfer" een rechte lijn was.
Samenwerking: Ze zagen dat de invloed van "ouders' opleiding" verandert afhankelijk van hoeveel huiswerk er wordt gemaakt. Dit is een complexe interactie die alleen de nieuwe methode kon vinden.

Conclusie

Kortom, deze paper introduceert een slimme manier om data te analyseren. Het is alsof je een team van detectives hebt die niet alleen kijken naar wie de dader is (de simpele lijn), maar ook precies begrijpen hoe de dader samenwerkte met anderen (de complexe interacties).

Door de "muur" tussen de simpele en complexe delen van de analyse af te breken, en door slimme regels toe te passen om verwarring te voorkomen, krijgen we een veel duidelijker en eerlijker beeld van de wereld. Of het nu gaat om schoolcijfers, medische diagnoses of sportprestaties: CSP-BART helpt ons om de echte, complexe verhalen achter de cijfers te vertellen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Accounting for Shared Covariates in Semi-Parametric Bayesian Additive Regression Trees" in het Nederlands.

Titel: Rekening houden met gedeelde covariaten in semi-parametrische Bayesiaanse Additieve Regressie Bomen (BART)

Auteurs: Estevão B. Prado, Andrew C. Parnell, Keefe Murphy, Nathan McJames, Ann O'Shea en Rafael A. Moral.

1. Het Probleem

In veel statistische toepassingen is het wenselijk om zowel de interpretatie van specifieke hoofd-effecten (via een lineaire predictor) als de complexiteit van niet-gespecificeerde interacties en niet-lineariteiten (via een niet-parametrisch model) te modelleren. Bestaande semi-parametrische modellen op basis van Bayesian Additive Regression Trees (BART), zoals het SSP-BART (Separated Semi-Parametric BART) model van Zeldow et al. (2019), lossen dit op door de covariaten in twee disjuncte sets te splitsen:

$X_1$ : Covariaten van primair belang (lineair).
$X_2$ : Covariaten van secundair belang (niet-parametrisch via BART).

De beperkingen van SSP-BART zijn:

Mutuele exclusiviteit: Het model vereist dat $X_1$ en $X_2$ geen gemeenschappelijke covariaten hebben ( $X_1 \cap X_2 = \emptyset$ ). Dit verhindert dat covariaten van primair belang interacties aangaan met andere variabelen of met zichzelf binnen het BART-component.
Identificeerbaarheid: Wanneer covariaten gedeeld zouden worden zonder aanpassingen, ontstaat er een identificeerbaarheidsprobleem: zowel de lineaire component als de BART-component zouden proberen dezelfde hoofd-effecten te schatten, wat leidt tot bias en onbetrouwbare schattingen.
Aannames over variantie: SSP-BART gaat uit van een isotrope prior voor de regressiecoëfficiënten, wat impliceert dat alle effecten ongecorreleerd en even groot zijn, wat vaak onrealistisch is.

2. Methodologie: CSP-BART

De auteurs introduceren CSP-BART (Combined Semi-Parametric BART), een nieuw raamwerk dat de bovengenoemde beperkingen oplost door fundamentele wijzigingen aan te brengen in de BART-algoritme en de prior-verdelingen.

Kerninnovaties:

Gedeelde Covariaten ( $X_1 \cap X_2 \neq \emptyset$ ):
In tegenstelling tot SSP-BART, staat CSP-BART toe dat covariaten van primair belang ( $X_1$ ) ook voorkomen in de set voor het BART-component ( $X_2$ ). Dit maakt het mogelijk om complexe interacties te modelleren die betrekking hebben op variabelen van primair belang, zowel onderling als met secundaire variabelen.
Nieuwe Boom-Generatie Moves (Double-Grow en Double-Prune):
Om het identificeerbaarheidsprobleem op te lossen wanneer covariaten gedeeld worden, worden twee nieuwe moves geïntroduceerd in de MCMC-sampling:
- Double-Grow: Wanneer een boomstam (stump) wordt uitgebreid met een splitsing op een covariabele $x \in X_1 \cap X_2$ $x \in X_{1} \cap X_{2}$ , wordt direct een tweede splitsing voorgesteld op een andere variabele. Tegelijkertijd wordt de prior van het eindknooppunt op de tegenovergestelde tak van de initiële splitsing aangepast zodat de posterior-schatting naar nul wordt "geschrumpeld" ( $\mu \sim N(0, \sigma^2_\mu \approx 0)$ $μ \sim N (0, σ_{μ}^{2} \approx 0)$ ).
  - Doel: Zorgen dat de lineaire component de hoofd-effecten schat, terwijl het BART-component zich uitsluitend richt op interacties en niet-lineariteiten.
- Double-Prune: De tegenhanger van double-grow. Als een boom teruggebracht wordt tot een structuur die alleen een hoofd-effect van een gedeelde variabele zou schatten, wordt deze direct volledig verwijderd (terug naar een stump) om te voorkomen dat de lineaire en niet-lineaire componenten hetzelfde effect schatten.
Striktere Validiteitscontroles:
Bij 'change' en 'swap' moves worden strengere checks uitgevoerd om te garanderen dat geen enkele tak in de boom uitsluitend wordt gedefinieerd door splitsingen op dezelfde covariabele uit $X_1 \cap X_2$ .
Geavanceerde Priors:
In plaats van een isotrope prior, gebruikt CSP-BART een hiërarchische prior op de covariantiematrix van de lineaire coëfficiënten ( $\Omega_\beta \sim IW(V, v)$ ). Dit staat toe dat de effecten van covariaten van primair belang onderling gecorreleerd zijn en verschillende varianties hebben, wat leidt tot minder bias en nauwkeurigere onzekerheidsschattingen.
Uitbreiding naar Random Effects:
Het model kan worden uitgebreid om zowel vaste als willekeurige effecten (random effects) in de lineaire component op te nemen, vergelijkbaar met lineaire gemengde modellen, zonder de identificeerbaarheid te schaden.

3. Belangrijkste Resultaten

Simulatiestudies:

De auteurs vergelijken CSP-BART met GAMs, SSP-BART, VCBART (Varying Coefficient BART) en een aangepaste versie van SSP-BART (SSP-BART $^\star$ ) waarbij covariaten gedeeld worden maar zonder de nieuwe moves.

Bias-reductie: CSP-BART levert aanzienlijk minder bias op bij het schatten van hoofd-effecten, vooral wanneer er interacties aanwezig zijn.
Identificeerbaarheid: SSP-BART $^\star$ (gedeelde covariaten zonder double-moves) faalt in het isoleren van effecten, wat leidt tot hoge bias. CSP-BART lost dit op.
Interacties: CSP-BART kan interacties tussen covariaten van primair belang correct modelleren, terwijl SSP-BART dit niet kan.

Toepassing: TIMSS 2019 Data (Ierland):

Het model werd toegepast op data van de Trends in International Mathematics and Science Study (TIMSS) om de prestaties van achtde-klas leerlingen in wiskunde te voorspellen.

Primaire covariaten: Opleidingsniveau van ouders, tijd besteed aan huiswerk, en schooldisciplineproblemen.
Resultaten:
- CSP-BART levert significant nauwkeurigere en betrouwbaardere schattingen op dan SSP-BART en VCBART, met smallerere credible intervals die vaker significant van nul verschillen.
- Interactie-effecten: Het model onthulde een belangrijke interactie tussen het opleidingsniveau van ouders en de tijd besteed aan huiswerk. Leerlingen met hoog opgeleide ouders die geen huiswerk maakten, scoorden slechter dan verwacht, wat suggereert dat de relatie niet lineair is.
- Niet-lineariteit: CSP-BART toonde aan dat extreem veel huiswerk maken (>90 minuten) geen lineair positief effect heeft op de scores, wat wijst op afnemende meeropbrengst of dat deze leerlingen extra moeite hebben met wiskunde.

Benchmark:

In een classificatietoepassing op de Pima Indians Diabetes dataset presteerde CSP-BART beter (lagere misclassificatie) dan SSP-BART, mede dankzij de hiërarchische prior en de double-moves.

4. Bijdragen en Significantie

Doorbraak in Semi-Parametrische Modellen: CSP-BART doorbreekt de noodzaak van mutuele exclusiviteit tussen lineaire en niet-parametrische componenten. Dit maakt het mogelijk om de "zwarte doos" van BART te openen voor variabelen van primair belang, terwijl toch de flexibiliteit van BART behouden blijft voor interacties.
Oplossing voor Identificeerbaarheid: De introductie van 'double-grow' en 'double-prune' moves biedt een elegante, theoretisch onderbouwde oplossing voor het probleem van overfitting en bias wanneer covariaten worden gedeeld.
Interpreteerbaarheid: Het model combineert de interpreteerbaarheid van lineaire modellen (voor specifieke variabelen) met de voorspellende kracht van machine learning (voor complexe patronen), wat ideaal is voor domeinen zoals onderwijsresearch waar beleidsmakers specifieke effecten moeten begrijpen.
Praktische Toepasbaarheid: De implementatie is beschikbaar als R-pakket en toont aan dat de extra rekenkosten marginaal zijn vergeleken met standaard BART of SSP-BART.

Conclusie:
CSP-BART vertegenwoordigt een significante verbetering in de semi-parametrische Bayesiaanse regressie. Het stelt onderzoekers in staat om complexe, realistische datastructuren te modelleren waarbij variabelen van primair belang zowel lineaire effecten als interacties hebben, zonder in te boeten op de interpretatie of de nauwkeurigheid van de schattingen.