Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme kunstenaar hebt die duizenden prachtige schilderijen kan maken. Deze kunstenaar is getraind op een enorme verzameling foto's van de echte wereld. Hij noemen we een Diffusiemodel. Normaal gesproken vraagt je hem: "Maak een mooi landschap," en hij doet dat. Maar wat als je zegt: "Maak een landschap, maar zorg ervoor dat er absoluut geen bomen in staan"? Of: "Maak een landschap, maar alleen als het regent en de temperatuur onder de 0 graden ligt"?

Dit is het probleem dat dit paper oplost. De meeste moderne AI's kunnen wel "zachte" instructies volgen (bijvoorbeeld: "maak het een beetje kouder"), maar ze kunnen geen harde regels garanderen. Als je vraagt om een landschap zonder bomen, kan de AI soms toch een boomtje vergeten, of een landschap maken dat eruitziet alsof er een boom is, maar het niet echt is. In veiligheidskritieke situaties (zoals zelfrijdende auto's of medische diagnoses) of bij het simuleren van zeldzame rampen (zoals een beurscrash), mag er geen enkele fout zijn. De regel moet 100% zeker worden gehaald.

De auteurs van dit paper hebben een nieuwe methode bedacht om deze kunstenaar te dwingen om die harde regels strikt na te leven, zonder de kunstenaar zelf opnieuw te hoeven trainen.

Hier is de uitleg in simpele taal, met een paar creatieve metaforen:

1. Het Probleem: De "Zachte" versus de "Harde" Regelaar

Stel je voor dat je een auto bestuurt die gewend is om overal te rijden (de getrainde AI).

De oude manier (Zachte Guidance): Je zegt tegen de bestuurder: "Rijd niet te snel, en probeer niet in de berm te komen." De bestuurder luistert, maar soms glijdt hij toch een beetje de berm in omdat hij het niet moet doen, maar alleen moet proberen.
De nieuwe manier (Harde Guidance): Je zegt: "Je mag nooit de berm in. Als je de berm nadert, moet je direct sturen." De auto moet nu een nieuwe route plannen die de berm volledig vermijdt, van het begin tot het einde van de rit.

2. De Oplossing: De "Magische Kompas" (Doob's h-transformatie)

De kern van dit paper is een wiskundig trucje dat ze Doob's h-transformatie noemen. Laten we dit vergelijken met een magisch kompas.

Normaal gesproken loopt de AI een pad af dat lijkt op een wandeling door een mistig bos. Ze weet niet precies waar ze naartoe moet, dus ze volgt een willekeurige route die uiteindelijk ergens in de buurt van het doel belandt.
Nu willen we dat de wandeling eindigt op een heel specifieke, moeilijke plek (bijvoorbeeld: "alleen op de top van de berg, niet in het dal").

Het kompas: De auteurs voegen een extra "wind" of "stuwkracht" toe aan de wandeling. Dit kompas wijst niet naar het noorden, maar naar de kans dat je nog steeds op de top van de berg kunt uitkomen, gezien je huidige positie.
Hoe het werkt: Als de wandelaar (de AI) begint af te dwalen naar een plek waar het onmogelijk is om de top te bereiken (bijvoorbeeld een afgrond), wijst het kompas heel sterk naar de kant waar het wél kan. De wandelaar wordt dus "geleid" door een onzichtbare kracht die hem dwingt om alleen paden te kiezen die leiden naar het gewenste resultaat.

3. Het Leerproces: Het Voorspellen van de Toekomst

Het moeilijke deel is: hoe weet je waar dat kompas moet wijzen? Je kunt niet vooruitkijken.
De auteurs gebruiken een slimme wiskundige eigenschap genaamd Martingale.

De Metafoor: Stel je voor dat je een gokker bent die voorspelt of een muntje op "Kruis" of "Munt" landt. Als je de munt al hebt gegooid, weet je het antwoord. Maar als de munt nog in de lucht is, is je voorspelling een "martingale": je verwachting verandert niet zomaar, tenzij je nieuwe informatie krijgt.
De AI-truc: De auteurs laten de AI (die al getraind is) duizenden keren wandelen. Ze kijken naar die wandelingen en leren een functie (het kompas) die voorspelt: "Als je nu hier bent, wat is de kans dat je straks op de top van de berg bent?"
- Ze gebruiken twee slimme methoden om dit te leren:
  1. De Kans-Methode: Leren voorspellen of je het doel haalt.
  2. De Bewegings-Methode: Kijken hoe snel die voorspelling verandert als je beweegt. Dit geeft extra precisie.

4. Waarom is dit zo belangrijk?

Veiligheid: In de echte wereld (zoals in de finance of medische wereld) wil je geen "misschien". Je wilt zekerheid. Als een AI een medicijn ontwerpt, moet het zeker werken, niet "waarschijnlijk".
Zeldzame Gebeurtenissen: Vaak willen we simuleren wat er gebeurt in een rampscenario (bijvoorbeeld: "Wat gebeurt er als de beurs 50% crasht?"). Dit gebeurt zelden in de normale data. Normale AI's zien dit nooit, dus ze leren het niet. Met deze methode kunnen we de AI dwingen om alleen die zeldzame, rampzalige scenario's te genereren, zodat we ons erop kunnen voorbereiden.
Efficiëntie: Een andere manier om dit te doen is "rejection sampling" (afkeuren). Dat is alsof je duizenden schilderijen maakt en ze allemaal weggooit die een boom bevatten, totdat je eentje hebt die perfect is. Dat kost enorm veel tijd en energie. De methode in dit paper zorgt ervoor dat de AI in één keer het juiste schilderij maakt, zonder weggooien.

Samenvatting

Dit paper introduceert een manier om slimme AI's (Diffusiemodellen) te "hersenpoetsen" zonder ze opnieuw te hoeven leren. Ze voegen een onzichtbare stuwkracht toe die de AI dwingt om strikte regels te volgen en zeldzame, extreme situaties te simuleren.

Het is alsof je een auto die gewend is om overal te rijden, uitrust met een onmiskenbaar navigatiesysteem dat de bestuurder dwingt om een specifieke, moeilijke route te rijden, zonder dat de motor van de auto zelf vervangen hoeft te worden. Dit maakt het mogelijk om veiliger en betrouwbaarder te werken in situaties waar fouten niet mogen gebeuren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Conditionele Diffusiegeleiding onder Harde Beperkingen: Een Stochastische Analysebenadering

Auteurs: Zhengyi Guo, Wenpin Tang, Renyuan Xu
Datum: Februari 2026 (voorgesteld)

1. Het Probleem

Diffusiemodellen zijn krachtige generatieve modellen die succesvol worden toegepast in diverse domeinen (beeldsynthese, moleculair ontwerp, tijdreeksvoorspelling). In veel praktische toepassingen, zoals veiligheidskritieke systemen, gereguleerde besluitvorming en stress-testen voor zeldzame gebeurtenissen (bijv. extreme marktdalingen of systeemoverbelasting), is het echter niet voldoende om onvoorwaardelijke steekproeven te trekken. Er is behoefte aan conditionele generatie waarbij gegenereerde steekproeven met zekerheid (kans = 1) voldoen aan specifieke harde beperkingen (bijv. $Y_T \in S$ ).

Bestaande methoden voor geleide diffusie, zoals soft guidance (beloning/straf in de loss-functie) of reinforcement learning, garanderen deze beperkingen niet. Ze kunnen leiden tot steekproeven die de beperkingen schenden. Alternatieven zoals rejection sampling (afwijzing) zijn theoretisch correct maar computationally onhaalbaar wanneer de beperking zeldzaam is (acceptatiekans $\rho \approx 0$ , kosten $\propto 1/\rho$ ).

De kernuitdaging: Ontwikkelen van een principieel, theoretisch onderbouwd en lichtgewicht mechanisme om een voorgeprogrammeerd diffusiemodel aan te passen zodat het steekproeven genereert die voldoen aan een harde beperking, zonder het onderliggende score-netwerk te herschrijven en zonder de inefficiëntie van afwijzing.

2. Methodologie

De auteurs introduceren een raamwerk voor Conditionele Diffusiegeleiding (Conditional Diffusion Guidance) gebaseerd op klassieke stochastische analyse, specifiek de Doob's h-transformatie.

A. Theoretische Basis: Doob's h-transformatie

In plaats van het model opnieuw te trainen, wordt de dynamica van het diffusieproces gewijzigd door een extra drift-term toe te voegen. Voor een voorgeprogrammeerd model met dynamica $dY_t = f(t, Y_t)dt + g(t)dB_t$ , wordt de conditionele dynamica gegeven door:
$dY^S_t = \left( f(t, Y^S_t) + g(t)^2 \nabla \log h(t, Y^S_t) \right) dt + g(t)dB_t$
Hierbij is $h(t, y) = P(Y_T \in S | Y_t = y)$ de waarschijnlijkheid dat het proces eindigt in de beperkingsset $S$ , gegeven de huidige toestand. De term $\nabla \log h$ fungeert als de geleiding die het proces naar de gewenste set stuurt.

B. Leeralgoritmen (Off-Policy)

De grootste uitdaging is het schatten van de onbekende functie $h$ en zijn gradiënt $\nabla h$ (en dus $\nabla \log h$ ) zonder toegang tot de onderliggende data-distributie, maar uitsluitend gebruikmakend van trajecten van het voorgeprogrammeerde model. De auteurs stellen twee nieuwe off-policy algoritmen voor:

CDG-ML (Martingale Loss):
- Gebaseerd op het feit dat $h(t, Y_t)$ een lokale martingaal is.
- Het doel is om $h$ te leren door de $L_2$ -fout te minimaliseren tussen de geschatte functie en de indicator van de gebeurtenis aan het einde van het traject:
  $\min_{\ell} \mathbb{E} \left[ \int_0^T (\ell(t, Y_t) - \mathbb{1}(Y_T \in S))^2 dt \right]$
- Vervolgens wordt $\nabla \log h$ benaderd via $\nabla \ell / \ell$ .
CDG-MCL (Martingale-Covariation Loss):
- Om het probleem van het schatten van de gradiënt van een benadering aan te pakken (waarbij een goede $h$ -benadering niet garandeert een goede $\nabla h$ -benadering), leren ze $\nabla h$ direct.
- Ze maken gebruik van de kwadratische variatie (quadratic variation) van het proces. Uit de Itô-formule volgt: $d[h, Y]_t = g(t)^2 \nabla h(t, Y_t) dt$ .
- Het algoritme minimaliseert de fout tussen de geschatte gradiënt en de empirische kwadratische variatie:
  $\min_{q} \mathbb{E} \left[ \int_0^T \left( \frac{1}{g(t)^2} \frac{d[h_\phi, Y]_t}{dt} - q(t, Y_t) \right)^2 dt \right]$
- Dit levert een directe schatting van de teller $\nabla h$ , terwijl de noemer $h$ apart wordt geleerd via CDG-ML.

Beide methoden zijn off-policy: ze trainen alleen op trajecten gegenereerd door het originele, niet-aangepaste model, wat stabiliteit garandeert en het probleem van "distribution shift" tijdens training vermeden.

3. Belangrijkste Bijdragen

Principieel Raamwerk: Een nieuwe benadering voor harde conditionele generatie die de volledige generatieve trajecten aanpast in plaats van alleen de eindverdeling, gebaseerd op Doob's h-transformatie.
Nieuwe Leerobjectieven: Introductie van twee novel loss-functies (Martingale en Martingale-Covariation) die stochastische analyse gebruiken om $h$ en $\nabla h$ te leren zonder het score-netwerk aan te passen.
Rigoureuze Theoretische Garantieën:
- Totale Variatie (TV) afstand: Afgeleide niet-asymptotische grenzen die de fout ontleden in bijdragen van de score-schatting en de geleidings-schatting. De fout hangt af van de zeldzaamheid van de gebeurtenis ( $\rho$ ).
- Wasserstein-2 afstand: Afgeleide grenzen die geometrisch betekenisvol zijn en minder gevoelig zijn voor de zeldzaamheid van de gebeurtenis dan de TV-maat, mits extra regulariteitsvoorwaarden gelden.
Efficiëntie: Het vermijden van de $O(1/\rho)$ kosten van rejection sampling; conditionele steekproeven worden gegenereerd in één enkele "rollout".

4. Resultaten

De auteurs valideren hun methode via numerieke experimenten in drie scenario's:

Synthetische Voorbeelden:
- In 1D en 2D Gaussische distributies met truncatie (harde beperkingen) presteert CDG-MCL significant beter dan CDG-ML. De geschatte verdelingen komen zeer nauw overeen met de theoretische conditionele verdelingen (lage Kolmogorov-Smirnov statistieken en kleine Wasserstein-afstanden).
- CDG-MCL levert een nauwkeurigere benadering van de gradiënt, wat essentieel is voor de drift-correctie.
Financiële Stress-Testing:
- Toepassing op dagelijkse log-rendementen van Amerikaanse aandelen (AAPL, AMZN, TSLA, JPM).
- Doel: Genereren van portfoliostress-scenario's waarbij TSLA een specifieke daling ondergaat.
- Resultaat: De gegenereerde portfoliostress-situaties (gemeten via cumulatieve rendementen en quantiles) komen zeer goed overeen met historische realiteit, zelfs in uit-sample tests. CDG-ML toont minder bias, maar CDG-MCL is robuuster bij het handhaven van de structuur van de afhankelijkheid.
Supply Chain Simulatie (Ziekenhuis):
- Simulatie van een ziekenhuisomgeving met wachtrijen en seizoensgebonden pieken (griepseizoen).
- De methode genereert scenario's met verhoogde aankomsttijden en langzamere bedieningstijden.
- Het systeem toont hoe de wachtrijlengte explodeert onder stress, maar de "soft guidance" (met parameter $\eta$ ) zorgt voor een realistischere spreiding dan een harde truncatie, waardoor het nuttig is voor capaciteitsplanning.

5. Significatie en Conclusie

Dit werk biedt een fundamentele doorbraak in het gebied van conditionele generatieve modellen.

Veiligheid en Betrouwbaarheid: Het lost het kritieke probleem op van het garanderen van harde beperkingen, wat essentieel is voor veiligheidskritieke toepassingen waar "soft" oplossingen ontoereikend zijn.
Efficiëntie voor Zeldzame Gebeurtenissen: Het biedt een schaalbare oplossing voor het simuleren van zeldzame, maar hoge-impact gebeurtenissen (stress-testing), wat traditioneel een rekenkundig onmogelijke taak was met standaard methoden.
Theoretische Diepgang: Door de brug te slaan tussen diffusiemodellen en klassieke stochastische analyse (martingalen, kwadratische variatie), biedt het een solide theoretisch fundament met expliciete foutgrenzen.
Praktische Toepasbaarheid: De methode is lichtgewicht, vereist geen herscholing van het basismodel en kan worden toegepast op bestaande state-of-the-art diffusiemodellen.

Samenvattend introduceert dit papier een wiskundig onderbouwde, efficiënte en betrouwbare methode om diffusiemodellen te sturen naar specifieke, zeldzame of strikt beperkte gebieden van de data-distributie, met directe toepassingen in financiën, operationeel onderzoek en veiligheidskritieke systemen.