We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film wil maken, maar in plaats van acteurs en camera's, gebruik je een slimme kunstmatige intelligentie (AI). Je geeft de AI een opdracht, bijvoorbeeld: "Een auto stopt bij een zebrapad, wacht tot een fietser voorbij is, en rijdt dan pas verder."

Helaas is die AI nog niet perfect. Soms maakt hij een filmpje waarbij de auto de fietser bijna aanrijdt, of waar de fietser plotseling verdwijnt. De AI heeft de idee begrepen, maar de volgorde en de logica van het verhaal zijn een beetje in de war.

Normaal gesproken zou je de AI moeten "leren" om dit beter te doen, maar dat kost enorm veel tijd, geld en rekenkracht. Alsof je een hele filmstudio moet herbouwen omdat één scène niet goed zat.

De oplossing in dit papier: "We fix it in post" (We maken het achteraf goed)

De auteurs van dit onderzoek hebben een slimme truc bedacht die ze NeuS-E noemen. In plaats van de hele AI opnieuw te trainen, kijken ze naar het resultaat en zeggen ze: "Hé, hier gaat het mis, en precies op dit moment. Laten we alleen dat stukje herschrijven."

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De "Logische Regisseur" (De Neuro-symbolische Feedback)

Stel je voor dat je een film hebt gemaakt, maar je hebt ook een zeer strenge, logische regisseur die alleen naar de tekst kijkt en niet naar de beelden. Deze regisseur heeft een lijstje met regels (een "tijdslogica"):

Regel 1: De auto moet stoppen.
Regel 2: De fietser moet voorbijrijden.
Regel 3: De auto mag pas vertrekken nadat de fietser weg is.

Deze regisseur kijkt naar het filmpje en zegt: "Wacht even, op seconde 5 is de fietser al weg, maar de auto rijdt al weg op seconde 4. Dat klopt niet met de regels!"

In de techniek noemen ze dit neuro-symbolische feedback. Het is een combinatie van een slimme hersen (die de beelden ziet) en een strenge logische regelaar (die de regels checkt).

2. De "Chirurgische Scalpel" (Het vinden van de fout)

De AI-regisseur weet niet alleen dat er iets mis is, maar ook waar en wat precies.
Stel je voor dat het filmpje een lange taart is. De AI snijdt niet de hele taart weg om opnieuw te beginnen. Nee, deze methode vindt precies het stukje taart (het frame) waar de fout zit.

Ze zeggen: "Het probleem zit in het moment waarop de fietser verdwijnt."
Ze identificeren dit als het "zwakste punt" in de film.

3. De "Sierlijke Herhaling" (De chirurgische correctie)

Nu komt het mooie deel. In plaats van de hele film opnieuw te genereren (wat duur en langzaam is), doen ze het volgende:

Ze knippen de film af op het moment vlak voor de fout.
Ze geven de AI een nieuwe, heel specifieke opdracht: "Herhaal dit stukje, maar zorg er dit keer voor dat de fietser echt eerst voorbij is voordat de auto vertrekt."
Ze plakken het nieuwe, betere stukje terug in de film.

Het is alsof je een fout in een brief maakt. In plaats van de hele brief te herschrijven, knip je alleen het verkeerde woordje eruit en plak je het juiste erin.

Waarom is dit zo cool?

Geen extra training: Je hoeft de AI niet opnieuw te leren. Het werkt met elke bestaande AI die video's maakt (of het nu een dure, gesloten AI is of een gratis, open-source versie).
Snel en goedkoop: Omdat ze alleen een klein stukje opnieuw maken, gaat het veel sneller dan het opnieuw maken van de hele video.
Beter verhaal: Het resultaat is een video die logisch klopt. De auto stopt echt, de fietser rijdt echt voorbij, en alles gebeurt in de juiste volgorde.

Kort samengevat:
Stel je voor dat je een robot hebt die verhalen vertelt, maar die robot is soms een beetje vergeten wat hij eerst en wat hij daarna moet doen. NeuS-E is als een slimme assistent die luistert naar het verhaal, ziet waar de robot de volgorde verdraait, en de robot zachtjes corrigeert: "Nee, eerst de fietser, dan pas de auto." Hierdoor wordt het eindresultaat een veel logischer en mooier verhaal, zonder dat je de robot zelf hoeft te herbouwen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande Text-to-Video (T2V) modellen (zoals Gen-3, Pika, CogVideoX) zijn uitstekend in het genereren van visueel coherente video's uit tekstuele prompts. Ze worstelen echter aanzienlijk met temporale consistentie en logische volgorde bij complexere prompts die meerdere objecten of opeenvolgende gebeurtenissen bevatten.

Temporale misalignments: Modellen falen vaak om gebeurtenissen in de juiste volgorde te plaatsen (bijv. een auto moet stoppen voordat een voetganger de weg oversteekt, en pas daarna verder rijden).
Beperkingen van bestaande oplossingen: Directe verbetering door het opnieuw trainen of fine-tunen van deze modellen is onpraktisch vanwege de enorme rekenkosten. Bestaande "training-free" methoden focussen vaak op visuele esthetiek of objectconsistentie, maar falen in het corrigeren van logische fouten in de tijdslijn.
Black-box modellen: Veel state-of-the-art modellen zijn gesloten (propriëtraat), wat het aanpassen van hun interne architectuur (zoals attention maps) onmogelijk maakt.

Methodologie: NeuS-E

De auteurs introduceren NeuS-E, een zero-training (zonder extra training) framework dat neuro-symbolische feedback gebruikt om gegenereerde video's chirurgisch te verbeteren. Het proces is iteratief en bestaat uit drie hoofdstappen:

Decompositie en Representatie:
- De tekstuele prompt wordt omgezet in een Temporale Logica (TL) specificatie ( $\Phi$ ) en een set van atomaire proposities (feiten, bijv. "persoon zit", "meer is zichtbaar") met behulp van een Large Language Model (LLM).
- De gegenereerde video wordt geanalyseerd met een Vision Language Model (VLM) om per frame een "vertrouwensscore" te bepalen voor elke propositie.
- Op basis hiervan wordt een Video Automaton (een Discrete-Time Markov Chain) geconstrueerd die de video formeel representeert als een reeks toestanden en overgangen.
Identificatie van Fouten (Diagnose):
- Het systeem voert formele verificatie uit (met behulp van de model checker STORM) om te bepalen hoe goed de video de TL-specificatie voldoet (satisfiability probability).
- Zwakste Propositie: Het systeem simuleert hypothetische scenario's waarbij de vertrouwensscore van elke individuele propositie tijdelijk op 1,0 wordt gezet. De propositie die, wanneer "perfect" verondersteld, de grootste stijging in de algehele voldoeningsscore veroorzaakt, wordt geïdentificeerd als de "zwakste schakel" (de oorzaak van de misaligning).
- Locatie van de Fout: Vervolgens wordt geanalyseerd op welk specifiek frame het veranderen van die zwakke propositie de grootste impact heeft op de tijdslijn. Dit identificeert het kritieke tijdstip waar de fout optreedt.
Refinement en Iteratie:
- De video wordt afgeknipt (trimmed) tot het geïdentificeerde kritieke frame.
- Een LLM genereert een nieuwe instructie om de ontbrekende of verkeerde elementen in dat specifieke frame (keyframe) te corrigeren.
- Een nieuw video-segment wordt gegenereerd vanaf dit gecorrigeerde frame, gekoppeld aan de originele prompt.
- Dit proces herhaalt zich totdat de voldoeningsscore een drempelwaarde bereikt of het maximale aantal iteraties is bereikt.

Belangrijkste Bijdragen

Neuro-Symbolische Feedback Loop: Een nieuwe methode die neurale netwerken (VLM/LLM) combineert met symbolische logica (Temporale Logica) om niet alleen te zeggen dat een video fout is, maar precies waar en waarom (welke propositie faalt op welk tijdstip).
Zero-Training Framework: NeuS-E vereist geen training van het onderliggende T2V-model. Het werkt als een post-processing pipeline die toepasbaar is op zowel open-source als gesloten (black-box) modellen.
Surgische Correctie: In plaats van de hele video opnieuw te genereren (wat duur en inefficiënt is), worden alleen de misalignerende segmenten vervangen, waardoor de globale context van de sterke segmenten behouden blijft.

Resultaten

De methode is getest op diverse modellen (Gen-3, Pika-2.2, CogVideoX-5B) en een dataset met complexe temporale prompts (NeuS-V suite).

Verbetering in Temporele Fidelity: NeuS-E leidt tot een aanzienlijke stijging in de NeuS-V score (een maatstaf voor temporale logica). De verbetering bedraagt gemiddeld +10,7% tot +23,3% afhankelijk van het model, met de grootste winst bij complexe prompts (tot +35,6% voor Pika-2.2 bij geavanceerde prompts).
Menselijke Evaluatie: In een blind A/B-test prefereerden annotatoren de bewerkte video's in 52% van de gevallen, wat aantoont dat de verbeteringen ook voor mensen waarneembaar zijn.
Vergelijking met Baselines: Een ablatiestudie toont aan dat een simpele "step-by-step" generatie (zonder de diagnostische neuro-symbolische feedback) slechts marginale verbeteringen geeft (+3,5%). Dit bevestigt dat de kracht van NeuS-E ligt in de precieze diagnose van de fout, niet alleen in het opnieuw proberen.
Visuele Kwaliteit: De visuele kwaliteit (gemeten met VBench) blijft stabiel of daalt slechts minimaal (ongeveer -1,7%), wat aangeeft dat de tijdsverbetering niet ten koste gaat van de esthetiek.

Betekenis en Conclusie

Het paper demonstreert dat het niet nodig is om de generatieve modellen zelf te trainen om hun temporale redenering te verbeteren. Door formele verificatie te gebruiken als een diagnostisch instrument, kan NeuS-E fouten in de logische volgorde van gebeurtenissen automatisch detecteren en chirurgisch corrigeren.

Dit is een belangrijke stap voorwaarts voor het genereren van lange, complexe video's, omdat het:

Werkt met bestaande, dure black-box modellen.
Kostenefficiënt is (geen training, alleen gerichte regeneratie).
Een fundamentele oplossing biedt voor het probleem van "temporale hallucinaties" in T2V-generatie, een gebied waar eerdere methoden tekortschoten.

De auteurs concluderen dat neuro-symbolische feedback een veelbelovende, model-agnostische route is om de tijdsconsistentie van video-generatie te schalen naarmate de onderliggende visuele modellen verbeteren.