Functional Bias and Tangent-Space Geometry in Variational Inference

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Schetsen: Waarom Variatie-inferentie soms de details mist

Stel je voor dat je een zeer complexe, driedimensionale sculptuur hebt (dit is de ware achtergrondverdeling of posterior in de statistiek). Deze sculptuur is zo ingewikkeld dat je hem niet precies kunt kopiëren of meten; het kost te veel tijd en energie.

In plaats daarvan gebruik je een variabele inferentie (Variational Inference of VI). Dit is als een kunstenaar die probeert een schets van die sculptuur te maken, maar die kunstenaar heeft slechts een beperkt gereedschapskistje. Hij mag alleen werken met simpele vormen: vlakke vlakken, rechte lijnen en losse blokken. Hij maakt een schets die zo goed mogelijk lijkt op het origineel, maar die hij wel kan tekenen binnen zijn beperkingen.

Dit paper onderzoekt een heel specifiek probleem: Waarom ziet die schets er soms goed uit, maar mist hij juist de cruciale details?

1. De "Tangentruimte": Het bereik van je gereedschapskist

De auteur introduceert een wiskundig concept dat hij de Tangentruimte noemt. In onze analogie is dit het bereik van beweging dat je kunstenaar heeft.

Als je kunstenaar alleen mag werken met losse blokken (wat men in de statistiek een mean-field benadering noemt), kan hij alleen vormen maken die bestaan uit een som van die losse blokken.
Hij kan een blokje hier en een blokje daar neerzetten.
Maar hij kan geen vormen maken die afhankelijk zijn van hoe die blokken met elkaar interageren. Hij kan geen "knopen" of "verstrengelingen" tekenen die ontstaan doordat twee blokken samenwerken.

De Tangentruimte is dus de verzameling van alle vormen die je kunstenaar kan tekenen met zijn beperkte gereedschap.

2. De "Bias": Wat er misgaat

Wanneer de kunstenaar zijn schets maakt, probeert hij zo dicht mogelijk bij het origineel te komen. Maar omdat hij geen verstrengelingen kan tekenen, moet hij die details weglaten of vervormen.

Het paper zegt iets heel belangrijks:

Als je iets wilt meten dat alleen afhangt van de losse blokken (bijvoorbeeld: "Hoe groot is blok A?"), dan zit je precies in de Tangentruimte. De kunstenaar kan dit perfect tekenen. De fout is verwaarloosbaar klein.
Als je iets wilt meten dat afhankelijk is van de interactie tussen blokken (bijvoorbeeld: "Hoe sterk hangen blok A en blok B samen?"), dan zit je buiten de Tangentruimte. Dit is de "orthogonale component". Hier maakt de kunstenaar een grote fout. Hij moet de interactie negeren, en dat leidt tot een systematische vertekening (bias).

De analogie van de kaart:
Stel je voor dat je een kaart tekent van een land met bergen en valleien.

Je mag alleen rechte lijnen en vlakke vlakken tekenen (je gereedschap).
Als je de hoogte van een enkel punt wilt weten, kun je dat redelijk goed schatten (dit zit in je Tangentruimte).
Maar als je de helling of de kromming van het landschap wilt weten (hoe de hoogte verandert als je van punt A naar punt B gaat), dan heb je een interactie nodig. Omdat je alleen vlakke vlakken mag tekenen, zie je die kromming niet. Je kaart is dan "plat" waar het landschap eigenlijk hol of bol is. Dat is de bias.

3. De "Interactie" is de boosdoener

Het paper laat zien dat de fouten die variatie-inferentie maakt, bijna altijd komen door interacties.

In de statistiek noemen we dit vaak "covariantie" (hoe twee variabelen samen bewegen).
Als je twee variabelen hebt die sterk met elkaar verbonden zijn (bijvoorbeeld: als het regent, is de grond nat), dan is er een interactie.
De standaard variatie-inferentie (mean-field) behandelt variabelen alsof ze los van elkaar staan. Het "snijdt" de interactie eruit.
Het paper bewijst wiskundig dat de fout in je schatting precies gelijk is aan hoeveel van die "interactie" er in het echte landschap zit, maar die je niet in je schets hebt kunnen tekenen.

4. Waarom is dit belangrijk?

Vroeger keken statistici vooral naar de "totale afstand" tussen de echte sculptuur en de schets (een maatstaf genaamd Kullback-Leibler-divergentie). Ze zeiden: "De schets is 90% goed."

Maar dit paper zegt: "Dat is niet genoeg. Het hangt er van af wat je wilt meten."

Wil je de gemiddelde temperatuur weten? Dan is je schets waarschijnlijk perfect, zelfs als de sculptuur er heel anders uitziet.
Wil je weten hoe waarschijnlijk het is dat het tegelijk regent en de wind uit het noorden waait? Dan is je schets waarschijnlijk heel slecht, omdat je de interactie mist.

5. De conclusie in het kort

Sean Plummer heeft een nieuwe "bril" ontwikkeld om naar variatie-inferentie te kijken. In plaats van te kijken naar hoe ver de schets van het origineel staat, kijkt hij naar de richting waarin je kijkt.

Kijk je in een richting die je gereedschap aankunt (de Tangentruimte)? Dan is je antwoord nauwkeurig.
Kijk je in een richting die je gereedschap niet aankunt (de interactie-richting)? Dan krijg je een fout, en hoe groter die interactie, hoe groter de fout.

De les voor de praktijk:
Als je variatie-inferentie gebruikt, moet je oppassen met het interpreteren van resultaten die over samenhang gaan (zoals correlaties of gezamenlijke kansen). Die worden systematisch onderschat of vervormd. Maar als je kijkt naar eigenschappen van individuele onderdelen, kun je je schets vaak vertrouwen.

Het paper biedt dus een geometrische verklaring voor een fenomeen dat statistici al lang observeerden, maar nu met een helder wiskundig frame: De fout zit niet in de schets zelf, maar in de hoek waaronder je naar de werkelijkheid kijkt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Functional Bias and Tangent-Space Geometry in Variational Inference" van Sean Plummer, geschreven in het Nederlands.

Titel: Functionele Bias en Tangentruimte-Geometrie in Variatie-inferentie

1. Probleemstelling

Variatie-inferentie (VI) is een veelgebruikte methode voor benaderende Bayesiaanse inferentie in complexe statistische modellen. Door de inferentie te beperken tot een hanteerbare familie van verdelingen en een divergentiecriterium (zoals de Kullback-Leibler-divergentie) te minimaliseren, biedt VI schaalbare benaderingen van posterior-verdelingen die anders onberekenbaar zouden zijn.

Echter, hoewel VI computationeel voordelig is, introduceert het systematische bias. De bestaande theoretische analyses focussen voornamelijk op globale maatstaven voor de kwaliteit van de benadering (zoals de totale KL-divergentie of convergentiesnelheden). In de praktijk vertrouwen veel toepassingen echter op specifieke posterior-samenvattingen (functionals), zoals verwachtingswaarden, varianties, covarianties of staartkansen.
De centrale vraag die dit artikel beantwoordt is: Welke posterior-functies kunnen nauwkeurig worden geschat vanuit een variatie-benadering, en wat is de structuur van de bias voor die die het niet zijn?

2. Methodologie: Een Geometrisch Raamwerk

De auteur ontwikkelt een geometrisch raamwerk om de bias van posterior-functies te analyseren. De kern van de methode bestaat uit het behandelen van de variatie-oplossing als een projectie van de posterior op een beperkte variatie-familie.

Tangentruimte ( $T_{q^*}Q$ ): De geometrie van de variatie-familie wordt beschreven door de tangentruimte bij de optimale oplossing $q^*$ . Deze ruimte omvat de richtingen waarin de verdeling lokaal kan worden verstoord terwijl deze binnen de variatie-familie blijft.
Residuale Orthogonaliteit: Een cruciale eigenschap van de KL-minimalisatie is dat het log-dichtheidsresidu $\Delta = \log(q^*/\pi)$ orthogonaal staat op de tangentruimte $T_{q^*}Q$ . Dit betekent dat voor elke functie $h$ in de tangentruimte geldt: $E_{q^*}[h \Delta] = 0$ .
Bias Decompositie: De auteur leidt een expansie af voor het verschil tussen de ware posterior-verwachting en de variatie-verwachting:
$E_\pi[g] - E_{q^*}[g] = -E_{q^*}[g_\perp \Delta] + O(\|\Delta\|^2)$
Hierbij is $g_\perp$ het component van de functie $g$ dat orthogonaal staat op de tangentruimte.

3. Belangrijkste Bijdragen

De paper levert vijf hoofdbijdragen:

Functionele Bias Decompositie: Een formule die de bias van een posterior-functie uitdrukt in termen van het orthogonale complement van de variatie-tangentruimte.
Tweede-orde Bias voor Tangentruimte-functies: Functies die volledig binnen de tangentruimte liggen, vertonen slechts een bias van de tweede orde (zeer klein), terwijl componenten die orthogonaal staan, leiden tot een bias van de eerste orde.
Expliciete Karakterisering voor Gestructureerde Mean-Field: Voor gestructureerde mean-field families wordt de tangentruimte expliciet gekarakteriseerd als de ruimte van block-additieve functies. Het orthogonale complement bestaat uit interactie-termen die meerdere blokken koppelen.
Voorbeelden: Toepassing op covariantie, variantie van lineaire contrasten en gezamenlijke staartkansen.
Asymptotische Expansies: Onder lokale asymptotische normaliteit (LAN) worden expliciete asymptotische bias-expansies afgeleid, die laten zien dat weggelaten interactierichtingen leiden tot eerste-orde vervorming van cross-block afhankelijkheidsmaten.

4. Resultaten en Analyse

A. Geometrie van Gestructureerde Mean-Field
Voor een parametervector $\theta = (\theta_{B_1}, \dots, \theta_{B_m})$ die in blokken is opgedeeld, bestaat de mean-field variatie-familie uit productverdelingen $q(\theta) = \prod q_b(\theta_{B_b})$ .

De tangentruimte $T_{q^*}Q_{MF}$ bestaat uit sommen van functies die afhankelijk zijn van slechts één blok: $\sum f_b(\theta_{B_b})$ .
Het orthogonale complement bevat interactie-termen (bijv. $f(\theta_{B_i}, \theta_{B_j})$ die niet kunnen worden ontbonden in een som van univariate functies).
Conclusie: Additieve samenvattingen van parameterblokken worden nauwkeurig weergegeven. Bias ontstaat uitsluitend door componenten die afhankelijk zijn van interacties tussen blokken.

B. Twee-Blok Decompositie (ANOVA)
Voor twee blokken $X$ en $Y$ kan elke functie $h(X,Y)$ worden ontbonden in:
$h(X,Y) = \mu + h_X(X) + h_Y(Y) + h_{XY}(X,Y)$

$h_X$ en $h_Y$ liggen in de tangentruimte (nauwkeurige schatting).
$h_{XY}$ (het interactie-component) ligt in het orthogonale complement en bepaalt de leidende bias.

C. Asymptotische Bias in Regular Parametrische Modellen
In het geval van een lokale Gaussische benadering (Bernstein-von Mises theorema) met samplegrootte $n$ :

De posterior convergeert naar $N(\mu_n, \Sigma/n)$ en de variatie-benadering naar $N(\mu_n, V/n)$ .
Voor een functie $g$ is de bias:
$E_{\pi_n}[g] - E_{q^*_n}[g] = \frac{1}{2n} \text{tr}(H_g(\Sigma - V)) + o_p(n^{-1})$
Waarbij $H_g$ de Hessiaan van $g$ is.
Specifiek voor Mean-Field: Omdat $V$ diagonaal is (geen cross-covarianties), is de bias voor cross-covariantie functies ( $g(\theta) = \theta_i \theta_j$ met $i \neq j$ ) gelijk aan $\Sigma_{ij}/n$ . Dit is een niet-verdwijnende eerste-orde bias.
Functies die in de tangentruimte liggen (bijv. sommen van individuele parameters) hebben een Hessiaan zonder cross-termen, waardoor de bias term verdwijnt ( $o_p(n^{-1})$ ).

5. Betekenis en Implicaties

Geometrische Verklaring: De paper biedt een fundamentele geometrische verklaring voor de bekende eigenschap dat mean-field inferentie cross-block afhankelijkheden systematisch onderschat (bias in covarianties en gezamenlijke staartkansen), terwijl marginaal gedrag vaak goed wordt geschat.
Selectie van Samenvattingen: Het raamwerk stelt onderzoekers in staat om te voorspellen welke posterior-samenvattingen betrouwbaar zijn. Als de "influence function" van een schatter in de tangentruimte ligt, is de benadering betrouwbaar; ligt hij in het orthogonale complement, dan is de bias groot.
Verbetering van Variatie-families: Het verklaart waarom het uitbreiden van de blokkestructuur (bijv. van volledig factoriserend naar gestructureerd mean-field) de bias vermindert: het vergroot de tangentruimte en verkleint het orthogonale complement, waardoor minder functies eerste-orde bias vertonen.
Complementaire Analyse: Deze resultaten vullen bestaande theorieën aan die focussen op globale divergentie. Het is mogelijk dat twee modellen een vergelijkbare KL-divergentie hebben, maar dat het ene model veel betere schattingen geeft voor specifieke functionals van belang vanwege de geometrie van de tangentruimte.

Conclusie:
De auteur concludeert dat variatie-families niet alleen moeten worden geëvalueerd op basis van globale divergentie-maatstaven, maar ook op basis van de functieklassen die worden gerepresenteerd door hun tangentruimten. De bias in variatie-inferentie is geen willekeurige fout, maar een structureel gevolg van de projectie op een ruimte die interactie-termen niet kan bevatten.

Functional Bias and Tangent-Space Geometry in Variational Inference

De Kunst van het Schetsen: Waarom Variatie-inferentie soms de details mist

1. De "Tangentruimte": Het bereik van je gereedschapskist

2. De "Bias": Wat er misgaat

3. De "Interactie" is de boosdoener

4. Waarom is dit belangrijk?

5. De conclusie in het kort

Titel: Functionele Bias en Tangentruimte-Geometrie in Variatie-inferentie

1. Probleemstelling

2. Methodologie: Een Geometrisch Raamwerk

3. Belangrijkste Bijdragen

4. Resultaten en Analyse

5. Betekenis en Implicaties

Meer zoals dit

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM

AgroDesign: A Design-Aware Statistical Inference Framework for Agricultural Experiments in Python