NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un artiste très talentueux, mais un peu têtu, de dessiner une scène précise. Vous lui dites : « Dessine une route au coucher du soleil, sans aucune voiture. »

L'artiste, habitué à dessiner des routes avec des voitures, a tendance à en mettre une par habitude, ou alors il efface toute la route pour être sûr qu'il n'y en a pas. C'est là que réside le problème des intelligences artificielles actuelles qui créent des vidéos à partir de texte : elles comprennent mal le mot « non ».

Voici une explication simple de la solution proposée par les chercheurs de l'Université du Maryland, présentée comme une boussole de correction.

1. Le Problème : L'IA qui ne comprend pas le « Non »

Les modèles d'IA actuels (comme ceux qui font des vidéos) sont excellents pour dire « oui ». Si vous demandez « un chien », ils dessinent un chien. Mais si vous dites « un chien qui ne court pas », ils ont souvent du mal.

Soit ils dessinent un chien qui court (ils ignorent le « non »).
Soit ils effacent le chien (ils pensent que « non chien » signifie « pas de chien du tout »).
Soit ils font des choses bizarres, comme un chien qui marche à l'envers.

Le mot « non » est complexe. Il ne signifie pas toujours « absence totale ». Parfois, cela signifie « juste pas cette action » (un chien qui dort, mais qui est bien là).

2. La Solution : La « Boussole de Correction » (Constrained Semantic Guidance)

Les chercheurs ont inventé une méthode qui ne demande pas à l'IA d'apprendre de nouveau (ce qui prendrait des années). Au lieu de cela, ils ajoutent un système de guidage en temps réel, comme un GPS qui corrige la route de l'IA à chaque seconde de la création de la vidéo.

Voici comment cela fonctionne avec une analogie :

Imaginez que l'IA est un bateau qui traverse un océan de possibilités pour arriver à l'image finale.

Le vent (l'IA normale) pousse le bateau vers ce qu'elle pense être le meilleur chemin (par exemple, vers une route avec des voitures).
Votre demande (« sans voitures ») est une barrière invisible dans l'eau.

Dans les anciennes méthodes, l'IA ignorait la barrière ou tentait de faire demi-tour brutalement, ce qui créait des vagues (des erreurs).

La nouvelle méthode (Constrained Semantic Guidance) agit comme un capitaine expérimenté qui tient la barre :

L'IA commence à dessiner (le bateau avance).
À chaque instant, le capitaine vérifie : « Est-ce qu'on s'approche trop de la zone interdite (les voitures) ? »
Si oui, il ne fait pas demi-tour. Il fait juste un tout petit mouvement de correction pour rester dans la zone autorisée, comme un bateau qui glisse le long d'une digue sans la heurter.

C'est ce qu'ils appellent une projection sur un ensemble convexe. En langage simple : c'est une règle mathématique qui dit : « Tu as le droit d'aller vers l'image, mais tu ne peux pas franchir cette ligne rouge tracée par le mot « non ». »

3. Les Trois Magies de cette Méthode

A. Pas de réapprentissage (Training-Free)

C'est comme si vous donniez un nouveau manuel de conduite à un chauffeur de taxi déjà très expérimenté, sans avoir besoin de le renvoyer à l'école pendant 6 mois. L'IA reste la même, on lui donne juste un outil de contrôle supplémentaire.

B. La Nuance (Le « Non » n'est pas toujours un « Zéro »)

La méthode comprend la différence entre :

« Pas de voitures » (Efface les voitures).
« Une voiture qui ne roule pas » (La voiture est là, mais elle est immobile).
« Pas de voiture noire » (Les voitures blanches sont permises).

L'IA ajuste sa trajectoire très finement, comme un sculpteur qui enlève juste le morceau de pierre qui dépasse, sans casser la statue.

C. La Vidéo en Mouvement

Le plus impressionnant est que cela fonctionne pour les vidéos. Souvent, une IA commence bien une vidéo (une route vide), mais au bout de 5 secondes, une voiture apparaît soudainement (comme par magie).
Notre « capitaine » surveille toute la durée du voyage. Si une voiture tente d'apparaître à la seconde 10, le système la repousse immédiatement, garantissant que la vidéo reste cohérente du début à la fin.

4. Pourquoi c'est important ?

Aujourd'hui, si vous demandez à une IA de faire une vidéo d'une « réunion où personne ne parle », elle risque de montrer des gens qui parlent ou une salle vide. Avec cette nouvelle méthode, l'IA peut enfin respecter des instructions complexes comme :

« Un restaurant bondé, mais sans bruit. »
« Un athlète qui court, mais sans transpirer. »
« Une ville futuriste, mais sans voitures volantes. »

En résumé

Les chercheurs ont transformé le mot « non » en une règle de sécurité géométrique. Au lieu de laisser l'IA deviner ce que vous voulez dire par « non », ils lui donnent une règle mathématique précise qui l'oblige à rester dans les limites de votre demande, tout en gardant la beauté et la fluidité de l'image.

C'est comme passer d'un élève qui devine la réponse à un élève qui a une règle de trois parfaite pour ne jamais se tromper, même sur les questions pièges !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La Négation Linguistique dans la Génération Vidéo

Bien que les modèles de diffusion basés sur le texte (Text-to-Video) aient atteint des niveaux de fidélité impressionnants pour générer des scènes complexes, ils souffrent d'une limitation fondamentale : l'incapacité à interpréter et à appliquer correctement la négation linguistique.

Échec actuel : Les modèles existants traitent souvent la négation (ex: "sans voiture", "ne pas utiliser") soit par l'absence totale du concept, soit par une inversion sémantique erronée (ex: transformer "ne pas utiliser" en "utiliser l'objet d'une manière différente"). Ils peinent à gérer la portée (scope), la composition logique (doubles négations) et les nuances graduelles.
Limites des approches précédentes : Les travaux antérieurs se sont concentrés sur l'évaluation des représentations (embedding) pour voir si les modèles distinguent les phrases positives et négatives. Cependant, ils ne proposent pas de mécanisme pour contrôler le processus génératif lui-même afin d'assurer le respect des contraintes de négation au cours de la trajectoire temporelle de la vidéo.
Enjeu : La négation n'est pas une simple absence, mais une opération sémantique structurée et dynamique qui nécessite une inhibition active des représentations affirmatives.

2. Méthodologie : Guidage par Contraintes de Faisabilité Convexe

Les auteurs proposent une nouvelle formulation qui traite la négation non pas comme un problème de données à réentraîner, mais comme une contrainte de faisabilité structurée dans l'espace de guidage sémantique du modèle de diffusion pré-entraîné.

A. Décomposition Sémantique

Le prompt est décomposé en trois éléments :

$y^+$ : Composantes sémantiques affirmées.
$y^-$ : Composantes soumises à la négation (l'objet ou l'action interdite).
$S$ : Structure de portée syntaxique et logique.

B. Reformulation du Guidage Classifier-Free (CFG)

Le modèle utilise le guidage classifier-free standard pour définir une direction de mise à jour sémantique ( $\delta_{ref}$ ) qui attire la trajectoire vers les concepts affirmés. Cependant, cette direction ne contraint pas les concepts négatifs.

C. Projection sur un Ensemble Convexe

L'innovation centrale consiste à interpréter la négation comme une contrainte géométrique :

On définit une direction de négation $a_t$ dans l'espace latent, correspondant à l'incrément sémantique qui augmenterait l'alignement avec le concept interdit.
La négation est imposée en exigeant que la projection de la mise à jour de guidage sur cette direction reste inférieure à un seuil $b_t$ (définissant un demi-espace fermé) :
$a_t^\top \delta_t \leq b_t$
À chaque étape de diffusion, la mise à jour de référence est projetée sur cette région faisable via une projection d'énergie minimale. Cela calcule la modification la plus petite nécessaire pour satisfaire la contrainte sans déstabiliser la génération.

D. Ordonnancement Temporel (Temporal Scheduling)

Pour éviter de perturber la formation initiale de la structure de la vidéo, le seuil de contrainte $b_t$ est assoupli au début du processus de diffusion et se resserre progressivement vers la fin. Cela permet une formation structurelle précoce tout en garantissant une suppression stricte des concepts interdits aux étapes finales.

E. Universalité

Cette formulation unifiée gère huit catégories de phénomènes linguistiques distincts sans modification architecturale :

Absence d'objet (AOC).
Négation à émergence tardive (LEN).
Attribut naturel implicite (INA).
Composition multi-négation (MNC).
Négation fonctionnelle structurelle (SFN).
Atténuation de non-inversion (NMI).
Sensibilité à la double négation (DNS).
Désambiguïsation de portée (SND).

3. Contributions Clés

Modélisation Formelle de la Négation : Première formulation unifiée qui modélise la négation linguistique comme des contraintes de faisabilité convexe dans l'espace de guidage sémantique des modèles VLM (Vision-Language Models).
Mécanisme d'Application Sans Réentraînement : Introduction d'un mécanisme "training-free" qui impose la négation via une projection minimale d'énergie, assurant stabilité et conformité sans modifier les poids du modèle de base.
Benchmark Structuré : Création d'une suite d'évaluation centrée sur la négation, isolant huit modes d'échec linguistiques distincts, allant au-delà de la simple séparation des embeddings pour évaluer la conformité distributionnelle dans les trajectoires génératives.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles de diffusion vidéo de pointe (Mochi, HunyuanVideo, CogVideoX) en utilisant le benchmark proposé.

Qualité Visuelle et Cohérence : La méthode préserve la fidélité visuelle et la cohérence structurelle de la scène tout en supprimant les concepts interdits. Contrairement aux bases de référence qui génèrent souvent des objets interdits ou inversent mal la logique, notre méthode maintient l'objet présent mais supprime l'action interdite (ex: "tenir un téléphone mais ne pas l'utiliser").
Métriques Quantitatives :
- CLIPScore : Augmentation de l'alignement global avec le prompt complet.
- CLIP-neg & DINO-conf : Réduction significative de la similarité avec les concepts négatifs et de la détection des objets interdits.
- NCS (Negation Compliance Score) & NVR (Negation Violation Rate) : Grâce à un juge vision-langage (GPT-4o), la méthode obtient le score de conformité le plus élevé (4.07 vs ~3.5 pour les bases) et le taux de violation le plus bas (0.23 vs ~0.36).
Études d'Ablation :
- Sans la composante d'énergie répulsive, la suppression des concepts échoue (retour aux niveaux de base).
- Sans l'ordonnancement temporel, la cohérence structurelle et la fidélité globale se dégradent, montrant l'importance de la modulation temporelle.
Étude Utilisateur : Sur 50 participants, la méthode a obtenu une préférence de 77,5 %, surpassant nettement les modèles de référence, avec des scores élevés sur la satisfaction de la négation et l'absence d'artefacts.

5. Signification et Impact

Cet article marque un tournant dans la recherche sur la génération vidéo conditionnée par le texte :

Du "Prompt Engineering" à la Théorie Formelle : Il déplace la négation d'une simple astuce de prompt ou d'un problème de données vers un opérateur sémantique structuré intégré au processus dynamique de génération.
Génération Vidéo et Action : La méthode s'étend naturellement aux trajectoires temporelles, ce qui est crucial pour la vidéo où les violations de négation peuvent apparaître tardivement. Elle ouvre la voie vers des systèmes Vision-Language-Action (VLA) où le langage contraint non seulement le contenu visuel mais aussi le comportement dynamique.
Efficacité : En étant "training-free" et compatible avec les backbones pré-entraînés, cette approche offre une solution immédiate et évolutive pour améliorer la logique et la sécurité des systèmes génératifs sans le coût computationnel du réentraînement massif.

En conclusion, cette travail établit une fondation principielle pour la génération vision-langage cohérente avec les contraintes, comblant le fossé entre la théorie linguistique formelle et le modèle génératif neuronal.