Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

Diff-Aid is een lichtgewicht, plug-and-play methode die tijdens de inferentie de interactie tussen tekst- en beeldfeatures dynamisch aanpast om de promptvolgzaamheid en visuele kwaliteit van rectified text-to-image-modellen zoals SD 3.5 en FLUX te verbeteren.

Binglei Li, Mengping Yang, Zhiyu Tan, Junping Zhang, Hao Li

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer getalenteerde, maar soms wat verstrooide kunstenaar hebt. Deze kunstenaar (in dit geval een AI-model genaamd Diff-Aid) kan prachtige plaatjes maken op basis van wat je zegt. Maar soms luistert hij niet goed genoeg. Als je vraagt om "een gele stopbord en een blauwe plant", tekent hij misschien een stopbord, maar dan per ongeluk rood, of vergeet hij de plant helemaal. Hij hoort de woorden, maar de verbinding tussen wat je zegt en wat hij tekent, is niet sterk genoeg.

Deze paper introduceert een slimme oplossing: Diff-Aid.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De Kunstenaar die "Afblijft"

Huidige AI's werken door een wazig, ruisend beeld langzaam schoon te maken, stap voor stap, totdat er een duidelijk plaatje uitkomt. Tijdens dit proces moet de AI constant luisteren naar je tekst.

  • Het probleem: Soms luistert de AI te hard naar de eerste woorden en vergeet hij de laatste. Of hij luistert naar de verkeerde delen van zijn eigen "brein" (de verschillende lagen van het model) op het verkeerde moment. Het resultaat? Een plaatje dat er mooi uitziet, maar niet precies is wat je wilde.

2. De Oplossing: Diff-Aid als een Slimme Regisseur

Stel je voor dat Diff-Aid een regisseur is die naast de kunstenaar staat. Deze regisseur heeft geen eigen penseel; hij tekent niets zelf. In plaats daarvan fluistert hij de kunstenaar toe wanneer en waar hij moet luisteren.

  • Adaptief (Aanpasbaar): De regisseur is niet star. Hij weet dat in de eerste stappen van het tekenen (wanneer de ruwe vorm wordt gemaakt) je moet focussen op de grote lijnen (bijv. "een hond"). Maar in de laatste stappen (wanneer details worden toegevoegd) moet je focussen op specifieke woorden (bijv. "de hond heeft een blauwe halsband"). Diff-Aid past dit fluisteren aan op elk moment van het proces.
  • Per Woord (Token): Niet elk woord in je zin is even belangrijk. "De" en "een" zijn minder belangrijk dan "paard" of "vliegend". Diff-Aid geeft de belangrijke woorden extra volume en zet de minder belangrijke woorden even op 'stil'.
  • De "Gaten" Strategie: De regisseur is ook slim genoeg om te weten dat niet elke stap in het tekenproces evenveel aandacht nodig heeft. Soms is het beter om te zwijgen en de kunstenaar even zijn gang te laten gaan. Diff-Aid zorgt ervoor dat de AI niet overal even hard naar luistert, maar juist op de plekken waar het echt uitmaakt.

3. Waarom is dit zo speciaal? (De "Plug-and-Play" Factor)

Het mooiste aan Diff-Aid is dat je de kunstenaar (de AI) niet hoeft te herscholen. Je hoeft geen nieuwe school te bouwen.

  • Het is als een bril: Je kunt Diff-Aid zomaar op de neus van een bestaande AI (zoals FLUX of Stable Diffusion) zetten. Het is een klein, lichtgewicht hulpmiddel dat direct werkt.
  • Het werkt voor alles: Of je nu gewoon een plaatje wilt maken, een bestaand plaatje wilt aanpassen (bijv. "maak de hond tot een wolf"), of een specifieke stijl wilt gebruiken (zoals een tekenfilmstijl), Diff-Aid helpt de AI om je instructies beter te volgen.

4. Wat levert het op?

In de paper zien we dat AI's met deze "regisseur" (Diff-Aid) veel beter doen:

  • Ze maken minder fouten (geen rode stopborden als je om gele vraagt).
  • Ze houden zich strikter aan je wensen.
  • De plaatjes zien er vaak mooier en natuurlijker uit.

Kortom: Diff-Aid is een slimme tussenpersoon die ervoor zorgt dat de AI precies luistert naar wat je wilt, op het juiste moment en op de juiste manier, zonder dat je de AI zelf hoeft te veranderen. Het maakt de samenwerking tussen mens en machine een stuk soepeler en creatiever.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →