ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische kunstenaar bent die tekeningen maakt op basis van beschrijvingen. Je hebt een zeer krachtige robot-kunstenaar (een AI-model) die fantastische beelden kan maken, zoals "een hond" of "een auto". Maar als je vraagt om iets heel raars en ongewoons, zoals "een baardige appel" of "een kangoeroe in een detectivejas", dan faalt de robot vaak. Hij weet niet precies wat hij moet doen, omdat hij in zijn training nooit zoiets heeft gezien.

De auteurs van dit paper, ADAPT, hebben een slimme oplossing bedacht om deze robot te helpen zonder dat ze hem opnieuw hoeven te leren. Ze noemen hun methode ADAPT. Hier is hoe het werkt, vertaald in een simpel verhaal:

Het Probleem: De Verwarde Chef-Kok

Stel je voor dat de robot-kunstenaar een chef-kok is die een heel ingewikkeld gerecht moet koken.

De oude methode (R2F): De chef krijgt een lijst van een andere kok (een grote taal-AI, zoals GPT-4) die zegt: "Eerst kook je 10 minuten op laag vuur, dan 5 minuten op hoog, en dan voeg je de rare kruiden toe."
- Het probleem: Die andere kok is soms willekeurig. Soms zegt hij "10 minuten", soms "12". En soms is de timing niet goed afgestemd op wat er echt in de pan gebeurt. Het resultaat is onvoorspelbaar en soms mislukt het gerecht.

De Oplossing: ADAPT (De Slimme Keukenassistent)

ADAPT is een nieuwe, slimme assistent die de chef direct helpt, zonder willekeurige instructies. Ze gebruiken drie slimme trucs:

1. De "Aandacht-Scanner" (Adaptive Prompt Scheduling)

In plaats van een vaste tijd te gebruiken, kijkt ADAPT continu naar waar de chef zijn aandacht op richt.

De Analogie: Stel je voor dat de chef een schilderij maakt. Eerst tekent hij de grote lijnen (een "dier"). Dan komt het moment dat hij de specifieke details moet toevoegen (de "baard" of de "appel").
Hoe het werkt: ADAPT kijkt naar de "aandacht" van de robot. Als de robot zijn aandacht volledig op het woord "dier" heeft gericht en dat deel van het beeld stabiel is, zegt ADAPT: "Oké, nu is het tijd om het woord 'dier' te vervangen door 'appel' en de baard toe te voegen."
Het voordeel: Het wacht tot het juiste moment, net zoals een goede schilder wacht tot de verf droog is voordat hij de volgende laag aanbrengt. Geen willekeurige tijden meer, maar perfect getimede instructies.

2. De "Richtingskompas" (Pooled Embedding Manipulation)

Soms is het moeilijk om een rare eigenschap toe te voegen zonder het hele beeld te verstoren.

De Analogie: Stel je voor dat je een gewone rode bal hebt en je wilt er een "glitter"-bal van maken. Als je gewoon de glitter eroverheen smeert, wordt de bal misschien lelijk of onherkenbaar.
Hoe het werkt: ADAPT gebruikt een wiskundige truc (een "orthogonale projectie") om precies te vinden wat er uniek is aan de "glitter" (de rare eigenschap) en wat er gewoon is aan de "bal". Het neemt de "glitter-richting" en voegt die heel voorzichtig toe aan de "bal-richting".
Het voordeel: De bal blijft een bal, maar krijgt nu precies de juiste hoeveelheid glitter, zonder dat het hele beeld vervormt.

3. De "Detail-Versterker" (Latent Space Manipulation)

Soms zijn de rare details zo specifiek (bijvoorbeeld "gemaakt van staal" of "met een hoorn") dat ze extra hulp nodig hebben.

De Analogie: Het is alsof je een zwakke radio-ontvangst hebt. Je wilt het geluid van de "staal"-stem luider maken zonder het geluid van de "hoorn" te verstoren.
Hoe het werkt: ADAPT haalt die specifieke woorden ("staal", "hoorn") uit de zin en geeft ze een extra duwtje in de juiste richting binnen de hersenen van de robot.
Het voordeel: De robot ziet nu heel duidelijk dat het object van staal moet zijn, zelfs als dat in zijn training nooit voorkwam.

Het Resultaat: Een Perfect Gerecht

Door deze drie technieken samen te gebruiken, kan de robot-kunstenaar nu beelden maken die eerder onmogelijk leken:

Een baardige appel.
Een gitaar in de vorm van een bijl.
Een walrus in een detectivejas die hiërogliefen bestudeert.

De oude methode (R2F) gaf soms een aardig beeld, maar vaak was het willekeurig of miste het details. ADAPT levert echter consistent en precies resultaat, precies zoals de gebruiker het beschrijft, zonder dat de robot opnieuw getraind hoeft te worden.

Kort samengevat: ADAPT is als een slimme regisseur die de robot-acteur vertelt precies wanneer hij moet schakelen van een gewone rol naar een rare rol, en hoe hij die rare eigenschappen moet spelen, zodat het eindresultaat eruitziet alsof het altijd al had bestaan.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het genereren van zeldzame compositieconcepten (bijv. "een baardige appel" of "een gitaar in de vorm van een bijl") met tekst-naar-beeld diffusiemodellen blijft een uitdaging. Hoewel recente modellen zoals Stable Diffusion 3 (SD3) indrukwekkend zijn, worstelen ze met attributen die zeldzaam zijn of afwezig in de trainingsdata.

Bestaande methoden, zoals R2F (Rare-to-Frequent), proberen dit op te lossen door gebruik te maken van een Large Language Model (LLM), zoals GPT-4o, om zeldzame prompts te vertalen naar frequentere concepten en deze te plannen tijdens het generatieproces. Echter, deze aanpak heeft twee fundamentele tekortkomingen:

Variance (Variabiliteit): De output van LLM's is inherent stochastisch, wat leidt tot inconsistente prompts en visuele detailniveaus voor identieke input.
Suboptimale geleiding: R2F gebruikt een heuristische, lineaire mapping van visuele details naar stoppunten en schakelt iteratief tussen tekst-embeddings. Dit leidt tot semantische onnauwkeurigheid en inconsistente geleiding tijdens het denoising-proces, waardoor zeldzame attributen vaak niet correct worden weergegeven.

Methodologie: Het ADAPT Framework

ADAPT is een training-vrij framework dat de generatie van zeldzame concepten verbetert door drie complementaire componenten te introduceren die deterministische en semantisch nauwkeurige geleiding bieden. Het werkt binnen het Multi-Modal Diffusion Transformer (MM-DiT) architectuur (zoals SD3).

1. Adaptive Prompt Scheduling (APS)

In plaats van te vertrouwen op de variabele output van een LLM voor het bepalen van stoppunten, gebruikt APS aandachtsscores (attention scores) om dynamisch te bepalen wanneer een concept voldoende is gegenereerd.

Mechanisme: Het systeem berekent de maximale ruimtelijke aandachtsscore ( $S_{Attn}$ ) voor elk token in de prompt tijdens het generatieproces.
Convergentie: Tokens die zeldzame concepten onderscheiden (bijv. "kikker" in "harige kikker" vs. "harig dier") vertonen een langzamere convergentie van de aandacht.
Dynamische Overgang: Zodra de top- $k$ aandachtsscores onder een bepaalde drempelwaarde ( $\tau_s$ ) dalen, wordt aangenomen dat het semantische concept is "verzadigd". Het systeem schakelt dan deterministisch over van een progressieve prompt (met frequente concepten) naar de doel-prompt (met zeldzame concepten). Dit elimineert de afhankelijkheid van GPT-4o voor timing en zorgt voor semantische uitlijning.

2. Pooled Embedding Manipulation (PEM)

Om de geleiding voor zowel zeldzame als frequente concepten te verbeteren, manipuleert ADAPT de gepoolde tekst-embeddings van CLIP.

Orthogonale Projectie: In plaats van embeddings simpelweg te mixen, projecteert ADAPT de embedding van het zeldzame concept ( $c_{r,pool}$ ) orthogonaal op de embedding van het frequente concept ( $c_{f,pool}$ ). Dit isoleert de unieke semantische richting van het zeldzame concept ( $\Delta_r$ ).
Adaptieve Weging: Een uniforme interpolatie kan leiden tot het onderdrukken van de basissemantiek of het onvoldoende benadrukken van het zeldzame attribuut. ADAPT introduceert een adaptieve schalingsfactor $\delta(\gamma)$ , gebaseerd op de cosinus-afstand tussen de embeddings. Hierdoor wordt de sterkte van de ingreep dynamisch aangepast aan de semantische nieuwheid van het concept.

3. Latent Space Manipulation (LSM)

Voor prompts waarbij het verschil tussen frequent en zeldzaam zeer groot is (bijv. "een metalen mensachtige figuur" vs. "een clown van staal"), is algemene embedding-manipulatie soms onvoldoende.

Attribuutextractie: Het framework extrahert specifieke attributen (bijv. "van staal") via aangepaste LLM-instructies.
Geleide Vector: Een orthogonale geleidingsvector wordt berekend in de latent space van de transformer-blokken. Deze vector wordt toegepast met een instelbare schalingsfactor om de generatie te sturen naar het specifieke attribuut zonder de basisidentiteit van het object te verstoren.

Belangrijkste Bijdragen

Deterministische Planning: De introductie van APS verwijdert de afhankelijkheid van LLM-variatie voor het plannen van prompts en gebruikt in plaats daarvan aandachtconvergentie voor semantisch uitgelijnde stoppunten.
Ontkoppelde Geleiding: Een dubbel-niveau framework (PEM en LSM) dat zorgt voor precieze, consistente geleiding van zeldzame semantiek en attribuut-specifieke controle via orthogonale projecties en adaptieve weging.
Training-vrij: Het framework vereist geen extra training of fine-tuning van het onderliggende diffusiemodel, wat het breed toepasbaar maakt.

Resultaten

De prestaties van ADAPT zijn geëvalueerd op de RareBench-benchmark, die specifiek is ontworpen voor zeldzame concepten.

Kwantitatieve Prestaties: ADAPT behaalde een gemiddelde score van 83.1 op de tekst-naar-beeld uitlijning (beoordeeld door GPT-4o), een significante verbetering ten opzichte van de huidige state-of-the-art R2F (75.7). De verbeteringen waren het grootst bij complexe multi-object relaties (+16.2 punten) en objectvormen (+9.4 punten).
Kwalitatieve Verbetering: Visuele vergelijkingen tonen aan dat ADAPT zeldzame attributen (zoals "baardig", "driehoekig", "van glas") veel nauwkeuriger integreert in de afbeelding zonder de visuele integriteit of realisme te schaden.
Ablatiestudies: Experimenten bevestigen dat elke component (APS, PEM, LSM) bijdraagt aan de totale prestatie, waarbij de combinatie van alle drie de componenten de beste resultaten oplevert.
Menselijke Voorkeur: Een user study toonde aan dat gebruikers consequent de door ADAPT gegenereerde beelden prefereerden boven die van R2F, voornamelijk vanwege de betere semantische nauwkeurigheid.

Betekenis en Impact

ADAPT stelt een nieuw paradigma neer voor de generatie van zeldzame concepten in tekst-naar-beeld synthese. Door de afhankelijkheid van stochastische LLM-outputs te vervangen door deterministische, op aandacht gebaseerde mechanismen, biedt het een robuuste oplossing voor een van de grootste beperkingen van huidige diffusiemodellen. Het framework maakt het mogelijk om complexe, creatieve en zeldzame visuele ideeën te realiseren met een hoge mate van controle en betrouwbaarheid, zonder de noodzaak van kostbare modeltraining. Dit opent nieuwe mogelijkheden voor creatieve toepassingen waar specifieke, ongebruikelijke composities vereist zijn.