Relational Feature Caching for Accelerating Diffusion Transformers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kunstenaar bent die een schilderij maakt, maar in plaats van elke penseelstreek zelf te doen, heb je een slimme assistent. Deze assistent kan echter alleen maar heel snel werken als hij niet elke streek opnieuw hoeft te bedenken.

Dit is precies het probleem met moderne AI-afbeeldingen (zoals die van Midjourney of DALL-E). Om een foto te maken, moet de computer duizenden kleine stappen nemen om van een wazig ruisbeeld naar een scherp plaatje te gaan. Dit duurt lang en kost veel energie.

De oplossing die in dit paper wordt gepresenteerd, heet RFC (Relational Feature Caching). Laten we uitleggen hoe het werkt met een paar simpele metaforen.

1. Het Probleem: De "Gokker"

Tot nu toe probeerden andere methoden om tijd te besparen door te gokken.
Stel je voor dat je een film kijkt. Als je weet hoe de film eruitzag 5 minuten geleden, probeerde de computer te raden hoe het er nu uitziet door te zeggen: "Het gaat waarschijnlijk een beetje verder in dezelfde richting."

Dit heet temporale extrapolatie. Het werkt vaak goed, maar niet altijd. Soms verandert de scène plotseling (bijvoorbeeld een onweer breekt los), en dan is de gok verkeerd. De computer probeert dan de fout te herstellen, maar dat kost weer tijd en energie. Als de computer te vaak gokt, wordt het eindresultaat wazig of lelijk.

2. De Oplossing: De "Spiegel" (RFC)

De auteurs van dit paper ontdekten iets belangrijks: Wat er binnenkomt, bepaalt wat er uitkomt.

Stel je voor dat je een spiegel hebt. Als je je hand voor de spiegel beweegt, zie je direct hoe je hand in de spiegel beweegt. Je hoeft niet te gokken hoe je hand gaat bewegen; je kijkt gewoon naar je eigen hand.

In de AI-wereld betekent dit:

De Input (Invoer): De informatie die het computerprogramma nu krijgt.
De Output (Uitvoer): Het resultaat dat het programma nu produceert.

De onderzoekers zagen dat als de invoer een beetje verandert, de uitvoer op een zeer voorspelbare manier verandert. Ze noemen dit een relatie.

3. Hoe werkt RFC? Twee Slimme Trucs

RFC gebruikt twee nieuwe technieken om deze "spiegel" te benutten:

A. RFE (Relational Feature Estimation) – De "Schaal"

In plaats van te gokken hoe het beeld verandert op basis van de tijd, kijkt RFC naar de invoer.

De Analogie: Stel je voor dat je een auto bestuurt. Als je het stuur een beetje draait (invoer), weet je precies hoeveel de auto gaat draaien (uitvoer), omdat je de "schaal" kent.
In de praktijk: Als de invoer van de AI een klein beetje verschuift, gebruikt RFC die verschuiving om precies te berekenen hoeveel het resultaat moet verschuiven. Dit is veel nauwkeuriger dan gewoon raden op basis van de tijd. Het is alsof je niet meer gokt hoe de film verder gaat, maar gewoon kijkt naar wat de acteurs nu doen.

B. RCS (Relational Cache Scheduling) – De "Wachtkamer"

Soms is het zelfs voor deze slimme spiegel te lastig om te voorspellen. Dan moet de computer gewoon even "hard werken" en alles opnieuw berekenen.

Het oude probleem: Eerdere methoden deden dit op vaste tijdstippen (bijvoorbeeld elke 10 seconden). Dat is dom, want soms is er niets veranderd (dan is het een verspilling) en soms is er veel veranderd (dan is het te laat).
De nieuwe truc (RCS): RFC luistert naar de invoer. Als de invoer heel rustig is, zegt de computer: "Geen probleem, ik ga doorgaan met mijn voorspelling." Maar zodra de invoer begint te "trillen" of verandert, zegt de computer: "Oeps, hier wordt het lastig, ik ga even alles opnieuw berekenen."
Het resultaat: De computer werkt alleen hard als het echt nodig is. Dit bespaart enorm veel tijd.

4. Waarom is dit geweldig?

Stel je voor dat je een lange reis maakt met een auto:

Oude methode: Je stopt elke 10 kilometer om je kaart te checken, of je rijdt door tot je vastloopt in een file.
RFC-methode: Je kijkt naar de weg voor je. Als de weg recht is, rijdt je gewoon door. Als je een bocht ziet komen, rem je af en check je je kaart.

De voordelen:

Sneller: De computer doet minder onnodig werk.
Beter: De afbeeldingen zijn scherper en mooier, omdat de computer minder vaak "fouten" maakt door te gokken.
Slimmer: Het past zich aan aan de situatie, in plaats van een star plan te volgen.

Samenvattend

Dit paper introduceert een manier om AI-afbeeldingen sneller te maken door te stoppen met blind gokken op basis van tijd. In plaats daarvan kijkt de AI naar de directe relatie tussen wat er in gaat en wat er uit komt. Het is alsof je stopt met het raden van de toekomst en begint met het begrijpen van de oorzaak-en-gevolg-relatie in het moment. Hierdoor wordt het proces niet alleen sneller, maar ook veel nauwkeuriger.

Each language version is independently generated for its own context, not a direct translation.

Titel: Relational Feature Caching for Accelerating Diffusion Transformers (RFC)

Auteurs: Byunggwan Son, Jeimin Jeon, Jeongwoo Choi, Bumsub Ham (Yonsei University & KIST)
Publicatie: ICLR 2026

1. Het Probleem

Diffusion Transformers (DiTs) hebben de staat der kunst bereikt in generatieve taken zoals tekst-naar-beeld en tekst-naar-video. Deze modellen genereren echter beelden door iteratief ruis te verwijderen over honderden tijdstappen, wat leidt tot enorme rekenkosten.

Om dit te versnellen, zijn Feature Caching-methoden ontwikkeld. Deze slaan de output van dure modules (zoals Attention en MLP) op bepaalde tijdstappen op en hergebruiken deze in latere stappen om redundante berekeningen te vermijden. Echter, bestaande methoden hebben twee belangrijke beperkingen:

Directe hergebruik: Eerdere methoden hergebruiken cache-features direct, wat leidt tot cumulatieve fouten en kwaliteitsverlies.
Tijdsgebaseerde extrapolatie: Recentere methoden (zoals TaylorSeer en FasterCache) proberen features te voorspellen door tijdextrapolatie (aannemende dat features glad evolueren). De auteurs tonen aan dat de grootte van de veranderingen in output-features over de tijd irregulier is. Dit leidt tot aanzienlijke voorspellingsfouten, vooral bij grote intervallen tussen volledige berekeningen, wat de gegenereerde kwaliteit (bijv. sFID) aanzienlijk verslechtert.

2. Methodologie: Relational Feature Caching (RFC)

De kern van de voorgestelde oplossing is de observatie dat, hoewel de veranderingen in output-features over de tijd onregelmatig zijn, er een sterke correlatie bestaat tussen de veranderingen in de input-features en de output-features van een module.

RFC bestaat uit twee nieuwe componenten:

A. Relational Feature Estimation (RFE)

RFE verbetert de voorspelling van output-features door de relatie tussen input en output te benutten in plaats van alleen op tijdsextrapolatie te vertrouwen.

Observatie: De verhouding tussen de grootte van de verandering in output-features ( $\|\Delta O\|$ ) en input-features ( $\|\Delta I\|$ ) is over de tijd vrijwel constant (invariant).
Methode: In plaats van alleen de Taylor-reeks te gebruiken, schat RFE de grootte van de verandering in de output af op basis van de verandering in de input:
$\|\Delta O\| \approx s_N \cdot \|\Delta I\|$
Waarbij $s_N$ een ratio is die wordt berekend tussen de twee meest recente volledige berekeningen. Omdat het berekenen van input-features lichtgewicht is (bijv. LayerNorm, scaling), is deze correctie zeer efficiënt. Dit stelt het model in staat om de onregelmatige dynamiek van features beter te vangen.

B. Relational Cache Scheduling (RCS)

RCS is een dynamische strategie die bepaalt wanneer een volledige berekening nodig is, gebaseerd op de verwachte voorspellingsfout.

Probleem: Het direct meten van de output-fout vereist een dure volledige berekening, wat het doel van caching ondermijnt.
Oplossing: De auteurs stellen dat de fout in de output-voorspelling sterk correleert met de fout in de input-voorspelling. RCS berekent daarom de voorspellingsfout van de input-features (via Taylor-expansie) als een proxy.
Implementatie: Als de geaccumuleerde relatieve L1-fout van de input-voorspelling een vooraf gedefinieerde drempel ( $\tau$ ) overschrijdt, wordt een volledige berekening uitgevoerd. Dit zorgt ervoor dat volledige berekeningen vaker plaatsvinden wanneer de features snel veranderen (hoge foutkans) en minder vaak wanneer ze stabiel zijn.

3. Belangrijkste Bijdragen

Analyse van Feature Dynamiek: De auteurs tonen aan dat output-features in DiTs onregelmatig veranderen over de tijd, maar dat deze veranderingen sterk gekoppeld zijn aan input-features.
RFE (Relational Feature Estimation): Een nieuwe voorspellingsmethode die input-variaties gebruikt om de grootte van output-veranderingen nauwkeuriger te schatten dan pure tijdsextrapolatie.
RCS (Relational Cache Scheduling): Een adaptieve planningsstrategie die volledige berekeningen triggert op basis van geschatte input-fouten, waardoor de balans tussen snelheid en kwaliteit wordt geoptimaliseerd.
State-of-the-Art Prestaties: RFC presteert consistent beter dan bestaande methoden (FORA, TaylorSeer, ToCa, DuCa) op diverse DiT-modellen.

4. Resultaten

De auteurs hebben RFC getest op verschillende benchmarks en modellen:

Class-conditional Image Generation (DiT-XL/2 op ImageNet): RFC behaalt een aanzienlijk lagere sFID (Schwartz FID) en FID2FC (kwaliteitsverlies t.o.v. volledige berekening) vergeleken met TaylorSeer, zelfs bij lagere FLOPs (rekenkracht). Bijvoorbeeld, bij ~3.37 TFLOPs verslaat RFC TaylorSeer (4.76 TFLOPs) met een sFID van 3.40 vs 3.12 (in sommige settings) en significant lagere degradatie (FID2FC).
Text-to-Image (FLUX.1 dev): RFC levert betere PSNR, SSIM en LPIPS scores op dan concurrenten bij vergelijkbare rekenkosten.
Text-to-Video (HunyuanVideo): Ook voor video-generatie behaalt RFC de beste scores op VBench en beeldkwaliteitsmetingen.
Efficiëntie: De extra rekentijd voor RFE en RCS is verwaarloosbaar (< 1% overhead) omdat deze alleen lichte operaties op input-features uitvoeren. De geheugenvraag is vergelijkbaar met bestaande methoden.

5. Betekenis en Impact

Dit paper biedt een fundamentele doorbraak in het versnellen van Diffusion Transformers. In plaats van te vertrouwen op de vaak onbetrouwbare aanname dat features glad evolueren over de tijd, introduceert RFC een relational approach die de interne structuur van het model (input-output koppeling) benut.

Kwaliteit behoud: Het stelt systemen in staat om met minder rekenkracht (minder volledige stappen) beelden van hoge kwaliteit te genereren, wat cruciaal is voor praktische toepassingen.
Generaliteit: De methode werkt effectief op verschillende architecturen (DiT, U-Net) en taken (beeld, video).
Toekomstige richting: Het paper suggereert dat het benutten van relaties tussen lagen of modules een veelbelovende richting is voor toekomstige optimalisaties van generatieve modellen.

Kortom, RFC lost het probleem van cumulatieve cache-fouten op door slimme, data-gedreven voorspellingen te maken, waardoor DiTs sneller en efficiënter worden zonder in te leveren op de visuele kwaliteit.