NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische filmregisseur bent die een robot aanstuurt. Je geeft de robot een opdracht: "Maak een video van een drukke stad, maar zonder auto's."

Helaas is de robot (een kunstmatige intelligentie die video's maakt) nogal een koppige leerling. Als je zegt "geen auto's", denkt hij vaak: "Oh, ik moet de stad leegmaken" of "Ik moet een auto maken die eruitziet alsof hij niet rijdt." Hij begrijpt het woord "niet" niet echt als een logische regel, maar meer als een verwarrend woordje.

Dit artikel, getiteld "Negatie: Beperkte Semantische Gids voor Taalnegatie in Tekst-naar-Video Diffusie", introduceert een slimme nieuwe manier om deze robot te trainen zonder hem opnieuw te leren. Het is alsof je de robot geen nieuwe school laat volgen, maar hem een onverbrekelijke veiligheidsriem om doet.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Niet"-Valkuil

Tot nu toe konden deze robots wel prachtige video's maken van "een zonsondergang" of "een hond die speelt". Maar zodra je "niet" in de zin stopt, gaat het mis.

Voorbeeld: Als je zegt "Een persoon die een telefoon vasthoudt, maar hem niet gebruikt", maakt de robot vaak een persoon die wél aan het bellen is, of verwijdert hij de telefoon helemaal.
De robot ziet "niet" niet als een logische beperking, maar als een signaal om iets anders te doen.

2. De Oplossing: De "Onzichtbare Muur"

De auteurs (Taewon Kang en Ming Lin) hebben een methode bedacht die ze Constrained Semantic Guidance noemen. Laten we dit vergelijken met een dansles.

De Normale Dans (De Robot): De robot probeert een danspas te maken die past bij je tekst. Als je zegt "geen auto's", probeert hij een pas te dansen die "geen auto" betekent, maar hij twijfelt en stapt soms toch in de verkeerde richting.
De Nieuwe Methode (De Veiligheidsriem): In plaats van de robot te dwingen om een nieuwe dans te leren, plaatsen we een onzichtbare muur in de dansvloer.
- De robot mag dansen waar hij wil, zolang hij maar niet tegen die muur aan loopt.
- Die muur staat voor het woord "niet".
- Als de robot probeert in de richting van "auto's" te dansen (wat hij normaal zou doen), stuit hij tegen de muur. De methode duwt hem dan heel zachtjes terug naar de veilige kant: de kant waar de auto's niet zijn.

3. Hoe werkt dit technisch (zonder jargon)?

Stel je voor dat de robot een tekening maakt die steeds duidelijker wordt, van een wazige vlek tot een scherp beeld. Dit gebeurt in kleine stapjes.

De Regel: Bij elke stap kijkt de robot: "Ga ik in de richting van een auto?"
De Projectie: Als het antwoord "ja" is, past de methode de stap direct aan. Het is alsof je een pijl tekent die naar "auto's" wijst, en die pijl dan afschuift zodat hij langs de "geen-auto's"-lijn loopt.
Het Resultaat: De robot maakt een prachtige video van een stad, maar de auto's verschijnen er simpelweg niet in, omdat ze tegen de onzichtbare muur aanbotsten.

4. Waarom is dit zo speciaal?

Deze methode is slim om drie redenen:

Geen Nieuwe School: Je hoeft de robot niet opnieuw te leren (geen "retraining"). Je kunt het gebruiken met bestaande, krachtige robots die al gemaakt zijn. Het is een "plug-in" oplossing.
Het Werkt voor Alles: Het werkt niet alleen voor "geen auto's". Het werkt ook voor ingewikkelde zinnen zoals:
- "Een kamer die niet donker is" (Dit betekent: het moet licht zijn, maar de robot moet niet denken aan "donker" als het tegenovergestelde, maar gewoon licht maken).
- "Een leraar die een leerling helpt die niet luistert" (De robot moet weten dat alleen de leerling niet luistert, niet de leraar).
Het Werkt voor Video: Omdat de robot video's maakt (beweging in de tijd), moet de "muur" ook bewegen. De methode zorgt ervoor dat de robot niet halverwege de video plotseling een auto laat verschijnen. De regel blijft de hele video gelden.

5. De Test: De "Niet"-Proef

De auteurs hebben een speciale test gemaakt met 8 soorten moeilijke zinnen. Ze hebben hun robot getest tegen de beste robots ter wereld (zoals Mochi en HunyuanVideo).

Resultaat: De robots van anderen maakten vaak fouten (auto's die verschenen, of verkeerde betekenissen).
Onze Robot: Hield zich keurig aan de regels. Geen auto's, geen verkeerde bewegingen, en de video zag er nog steeds mooi en natuurlijk uit.

Samenvatting in één zin

Dit artikel geeft kunstmatige intelligentie een onverbrekelijke veiligheidsriem om te zorgen dat als je zegt "geen X", de computer echt geen X maakt, zonder dat je de computer zelf hoeft te herschrijven of opnieuw te trainen.

Het is alsof je een koppig kind (de AI) niet opnieuw moet opvoeden, maar gewoon een onzichtbare grens trekt in de kamer waar het kind niet overheen mag, zodat het zich netjes gedraagt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel vision-language modellen (VLMs) en diffusion-based generatieve systemen indrukwekkende resultaten boeken in het genereren van beelden en video's op basis van tekst, kampen ze met een fundamentele beperking: ze kunnen linguïstische ontkenning (negation) niet correct interpreteren of toepassen.

De uitdaging: Ontkenning is niet simpelweg de afwezigheid van een concept, noch is het gelijk aan het toevoegen van een uitsluiting. Het is een gestructureerde linguïstische operator die betrekking heeft op scope, compositie, gradatie en logische interactie (bijv. "een persoon die een telefoon vasthoudt maar deze niet gebruikt").
Huidige falen: Bestaande modellen negeren vaak deze beperkingen. Ze produceren outputs met verboden objecten, passen de scope verkeerd toe (bijv. het ontkennen van het hele beeld in plaats van een specifiek deel), of corrigeren te sterk naar een onbedoeld tegenovergestelde betekenis.
Lacune in onderzoek: Eerdere studies hebben zich voornamelijk gericht op de representatieniveau (embedding-separatie) en hebben niet onderzocht hoe ontkenning het generatieve proces zelf, en specifiek de tijdsafhankelijke trajecten in video-generatie, moet beïnvloeden.

Methodologie

De auteurs introduceren een training-vrije, constraint-based aanpak die linguïstische ontkenning formaliseert als een gestructureerde haalbaarheidsbeperking (feasibility constraint) binnen de dynamiek van diffusion-modellen. In plaats van het model opnieuw te trainen of heuristieken toe te passen, wordt ontkenning opgelost door de semantische update-richting te projecteren op een convexe constraint-set.

De kern van de methode omvat de volgende stappen:

Semantische Decompositie:
Een prompt wordt ontbonden in drie componenten:
- $y^+$ : Bevestigde semantische componenten (wat er wel moet zijn).
- $y^-$ : De linguïstisch gefundeerde span die onderworpen is aan ontkenning (wat er niet mag zijn).
- $S$ : Syntactische scope en logische compositiestructuur.
Herinterpretatie van Classifier-Free Guidance (CFG):
De standaard CFG-update ( $\delta_{ref}$ ) wordt gezien als een richting die de latentie naar bevestigde semantiek trekt. De auteurs definiëren echter een extra "negatie-richting" ( $a_t$ ) gebaseerd op de embedding van het ontkende deel ( $y^-$ ).
Convex Haalbaarheidsformulering:
Ontkenning wordt geformuleerd als een half-ruimte beperking in de semantische guidance-ruimte:
$a_t^\top \delta \leq b_t$
Waarbij $b_t$ de toelaatbare intensiteit van het ontkende concept bepaalt. Dit zorgt ervoor dat de generatie niet in de richting van het ontkende concept beweegt.
Minimale-Energie Projectie:
Op elk tijdstip $t$ wordt de referentie-update $\delta_{ref}$ geprojecteerd op de toelaatbare regio om de correcte update $\delta^*_t$ te verkrijgen. Dit gebeurt via een gesloten-formule oplossing (Karush-Kuhn-Tucker condities) die de minimale energie-verandering vereist om aan de constraint te voldoen:
$\delta^*_t = \delta_{ref} - \lambda_t a_t$
Hierbij is $\lambda_t$ een Lagrange-multiplicator die alleen actief is als de constraint wordt geschonden.
Temporele Planning (Scheduling):
De strengheid van de constraint ( $b_t$ ) wordt dynamisch aangepast tijdens het diffusion-proces. Vroege stappen (structuurvorming) hebben een losse constraint, terwijl latere stappen een strikte ontkenning afdwingen om temporale consistentie te garanderen.
Unificatie van Verschillende Ontkenningstypen:
De methode behandelt acht verschillende linguïstische fenomenen uniform via parameterisering van $(a_t, b_t)$ , waaronder:
- Afwezigheid van objecten (AOC).
- Functionele ontkenning (SFN: object aanwezig, actie verboden).
- Dubbele ontkenning (DNS).
- Scope-gevoelige ontmaskering (SND).

Belangrijkste Bijdragen

Formele Modellering: De eerste unified formulering die diverse linguïstische ontkenningfenomenen modelleert als gestructureerde convexe haalbaarheidsbeperkingen in de semantische guidance-ruimte van VLMs.
Constraint-Based Generatieve Handhaving: Een training-vrije mechanisme dat ontkenning afdwingt tijdens het diffusion-proces via minimale-energie projectie, zonder de architectuur van het basismodel te wijzigen.
Gestructureerde Benchmark: Introductie van een nieuw, negatie-gericht evaluatiesuite met acht categorieën die specifiek ontworpen is om temporale en logische falen in generatieve systemen te isoleren, verder dan alleen representatie-evaluatie.

Resultaten

De methode is geëvalueerd op een nieuwe benchmark en vergeleken met state-of-the-art video-diffusiemodellen (Mochi, HunyuanVideo, CogVideoX).

Kwalitatieve Resultaten: De methode slaagt erin om complexe scenario's correct te genereren, zoals "een persoon die een telefoon vasthoudt maar deze niet gebruikt" (SFN) of "een podium dat niet onbelicht is" (DNS). Baselines falen vaak door het object te verwijderen in plaats van de actie te onderdrukken, of door de dubbele ontkenning verkeerd te interpreteren.
Kwantitatieve Resultaten:
- CLIPScore: Hoogste score voor globale prompt-uitlijning (0.2924 vs. ~0.285 voor baselines).
- Ontkenningsovereenstemming (NCS): Significant hoger dan baselines (4.07 vs. ~3.5), wat aangeeft dat een multimodaal model de ontkenning beter begrijpt.
- Schendingsscore (NVR): Laagste percentage van expliciete schendingen (0.23 vs. ~0.36).
- Objectdetectie (DINO-conf): Laagste detectie van verboden objecten, wat aantoont dat de onderdrukking effectief is op objectniveau.
User Study: Bij een studie met 50 deelnemers werd de methode in 77,5% van de gevallen verkozen boven de concurrenten, met de hoogste scores voor "Negation Satisfaction" en "Scene & Action Alignment".
Efficiëntie: De methode voegt een kleine rekentijd toe (235 sec vs. 114 sec voor Mochi) maar vereist geen extra training en werkt met bestaande backbones.

Betekenis en Impact

Dit werk markeert een paradigmaverschuiving in de generatieve AI:

Van Representatie naar Dynamiek: Het verlegt de focus van het verbeteren van embedding-voorstellingen naar het reguleren van het generatieve traject zelf.
Logisch Onderbouwde Controle: Het biedt een principieel fundament voor het toepassen van linguïstische logica (zoals ontkenning) op neurale generatie, wat essentieel is voor betrouwbare en veilige AI-systemen.
Toepasbaarheid: De methode is niet beperkt tot statische beelden; door de constraint op het niveau van trajectevolutie toe te passen, werkt het naadloos voor video-generatie en heeft het potentieel voor Vision-Language-Action (VLA) systemen waar taal ook gedrag moet beperken.
Toekomstperspectief: Het opent de weg voor het modelleren van andere complexe linguïstische operatoren (kwantificatie, modaliteit) binnen een gestructureerd dynamisch kader, wat de brug slaat tussen formele semantiek en grote generatieve modellen.

NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

1. Het Probleem: De "Niet"-Valkuil

2. De Oplossing: De "Onzichtbare Muur"

3. Hoe werkt dit technisch (zonder jargon)?

4. Waarom is dit zo speciaal?

5. De Test: De "Niet"-Proef

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics