JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Dit paper introduceert JavisDiT, een geavanceerd Diffusion Transformer-model dat gesynchroniseerde audio-video content genereert via een hiërarchisch ruimtelijk-temporeel synchronisatiemechanisme en een nieuw benchmark- en meetinstrument voor realistische scenario's.

Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Jiebo Luo, Ziwei Liu, Hao Fei, Tat-Seng Chua

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film maakt. In de echte wereld, als een hond blaft, hoor je dat geluid precies op het moment dat de hond zijn bek opent. Als een auto voorbijrijdt, hoor je het geluid van de motor precies terwijl je de auto ziet bewegen. Dit heet synchronisatie.

Tot nu toe was het voor kunstmatige intelligentie (AI) heel moeilijk om dit natuurlijk na te bootsen. Vaak leek het alsof de lippen van een acteur niet matchten met de stem, of dat het geluid van een vallend glas te laat of te vroeg klonk.

Deze paper introduceert JavisDiT, een nieuwe, slimme AI die precies weet hoe je een film moet maken waarbij beeld en geluid perfect op elkaar aansluiten. Hier is hoe het werkt, vertaald naar simpele taal:

1. De Regisseur met twee hoofden (De Architectuur)

Stel je JavisDiT voor als een super-regisseur die twee hoofden heeft: één voor het beeld en één voor het geluid.

  • Eerdere methoden: Vaak maakten AI's eerst het beeld en probeerden ze daarna het geluid erbij te "plakken", of andersom. Dit is als eerst een tekening maken en dan proberen te raden welk geluid erbij hoort. Het resultaat is vaak rommelig en niet synchroon.
  • JavisDiT: Deze AI maakt het beeld en het geluid tegelijkertijd. Het is alsof de regisseur twee handen heeft die perfect samenwerken: terwijl de ene hand de hond tekent die blaft, schrijft de andere hand direct het geluid "woef" op het juiste moment.

2. De "Tijds- en Ruimte-Planner" (HiST-Sypo)

Het grootste geheim van JavisDiT is een speciaal hulpmiddel dat ze een HiST-Sypo Estimator noemen. Laten we dit vergelijken met een reisliteratuur voor een filmset.

Stel je voor dat je een tekst geeft: "Een robot vecht met een hond in een tuin."

  • De oude AI: Wist alleen dat er een robot en een hond waren, maar wist niet precies waar of wanneer ze geluid maakten.
  • De nieuwe AI (JavisDiT): Kijkt naar de tekst en maakt direct een gedetailleerd plan:
    • Ruimtelijk (Waar?): "De robot staat links, dus het mechanische geluid komt van links. De hond staat rechts, dus het blaffen komt van rechts."
    • Tijdelijk (Wanneer?): "De robot begint te piepen op seconde 2, de hond blaft op seconde 3, en het blaffen stopt op seconde 5."

Dit plan (de "prior") wordt als een onzichtbare leidraad door de AI gebruikt om te zorgen dat elk geluid precies op de juiste plek en op het juiste moment in het filmpje verschijnt.

3. De Nieuwe Testbaan (JavisBench)

Om te bewijzen dat hun nieuwe regisseur echt goed is, hebben ze een nieuwe testbaan bedacht, genaamd JavisBench.

  • Het probleem: Eerdere tests waren als een simpele dansles: alleen mensen die op een ritme dansen. Dat is makkelijk. Maar in het echte leven is het chaotisch: een feestje met veel mensen, auto's die voorbijrijden, en muziek die door elkaar klinkt.
  • De oplossing: JavisBench is een verzameling van 10.000 moeilijke situaties. Denk aan een drukke markt, een robot die werkt in een fabriek, of aliens die praten. Hiermee kunnen ze testen of de AI ook in de chaos van het echte leven synchroon blijft.

4. De Nieuwe Score (JavisScore)

Hoe meet je of een AI goed is? De oude meetlatjes keken alleen naar grote bewegingen (zoals optische stroming). Maar wat als iemand heel zachtjes fluistert? Dan zagen de oude meetlatjes niets.
JavisDiT introduceert JavisScore. Dit is als een super-gevoelige luisteraar die elk klein detail checkt: "Klinkt dit geluid echt alsof het uit die mond komt?" of "Is dit geluid van de auto echt op het moment dat de auto voorbijrijdt?"

Waarom is dit belangrijk?

Voor nu betekent dit dat we binnenkort AI-filmpjes kunnen maken die zo realistisch zijn dat je ze niet van de waarheid kunt onderscheiden. Of het nu gaat om het maken van films, video's voor sociale media, of het laten praten van oude foto's: JavisDiT zorgt ervoor dat het geluid en het beeld één verhaal vertellen, in plaats van twee losse dingen die naast elkaar bestaan.

Kortom: JavisDiT is de eerste AI die niet alleen "weet" wat er te zien en te horen is, maar ook precies begrijpt waar en wanneer het moet gebeuren, zodat het eindresultaat voelt als een echte, levendige wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →