Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Dit artikel introduceert MMHNet, een hiërarchisch model dat non-causale Mamba-architecturen gebruikt om video-naar-audio-generatie te schalen van korte naar lange duur (meer dan 5 minuten) zonder extra training op langere tijdsduur.

Christian Simon, Masato Ishii, Wei-Yao Wang, Koichi Saito, Akio Hayakawa, Dongseok Shim, Zhi Zhong, Shuyang Cui, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Echoes Over Time: Een simpele uitleg over het laten 'zingen' van lange video's

Stel je voor dat je een stomme film kijkt. Je ziet een auto die over een kasseienweg rijdt, maar je hoort niets. Een slim computerprogramma moet nu het geluid voor die auto bedenken. Dat is makkelijk voor een paar seconden, maar wat als de video 5 minuten duurt? Dat is precies het probleem dat deze nieuwe technologie, genaamd MMHNet, oplost.

Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De "Korte Kijker"

Vroeger konden computers alleen geluid maken voor heel korte filmpjes (bijvoorbeeld 8 seconden). Als je hen een lang verhaal gaf, raakten ze de draad kwijt.

  • De analogie: Stel je voor dat je een kind leert om een verhaal na te vertellen. Je leert het kind een zin van 5 woorden. Vervolgens vraag je het kind om een heel boek na te vertellen. Het kind zal waarschijnlijk beginnen met de eerste zin, maar halverwege het boek de draad verliezen, gaan herhalen of helemaal stoppen.
  • De oorzaak: De oude computers (die op 'Transformers' draaiden) hadden een soort "korte geheugenlijn". Ze hadden een vaste lijst met posities (1, 2, 3...) nodig. Als het verhaal langer werd dan die lijst, raakten ze in de war.

2. De Oplossing: MMHNet (De Slimme Regisseur)

De onderzoekers hebben een nieuw systeem bedacht dat heet MMHNet. Dit systeem is als een slimme regisseur die niet alleen kijkt naar wat er gebeurt, maar ook begrijpt hoe de tijd verloopt, zonder vast te zitten aan een strakke lijst.

Ze gebruiken twee slimme trucjes:

Truc A: De "Niet-Causale Mamba" (De Alles-Kijker)

Oude systemen keken alleen naar het verleden (causaal). Ze wisten niet wat er nog ging gebeuren.

  • De analogie: Stel je voor dat je een film kijkt, maar je mag alleen naar het scherm kijken als je de vorige scène al hebt gezien. Je kunt niet vooruitkijken.
  • De nieuwe methode: MMHNet gebruikt een technologie die "Niet-Causaal" heet. Dit is alsof de regisseur de hele filmrollen al heeft uitgerold op de grond. Hij kan naar het begin, het midden én het einde kijken tegelijkertijd. Hij weet dus precies wat er gebeurt, zelfs als de video heel lang is. Hij hoeft niet te raden; hij ziet het allemaal.

Truc B: De Hiërarchische Netwerken (De Slimme Samenvatter)

Bij een lange video zijn er veel momenten die saai of saai zijn (bijvoorbeeld een auto die 10 seconden lang rechtdoor rijdt). De oude computers probeerden elk seconde te analyseren, wat veel te veel werk was.

  • De analogie: Stel je voor dat je een lange reisverslag schrijft. Je hoeft niet te vertellen dat je 10 minuten lang over de snelweg reed (dat is saai). Je schrijft alleen op: "We kwamen aan in de stad" en "We zagen een kerk".
  • De nieuwe methode: MMHNet gebruikt een "routeringssysteem". Het kijkt naar de video en het geluid, en zegt: "Ah, hier gebeurt er niets spannends, ik sla dit over." en "Hier springt een bal, hier moet ik wel even naar kijken!"
    Het comprimeert de saaie momenten en focust alleen op de belangrijke stukken. Dit maakt het systeem veel sneller en zorgt dat het geluid niet "vervormt" naarmate de video langer wordt.

3. Het Resultaat: Van 8 seconden naar 5 minuten

Het mooiste aan dit onderzoek is dat ze het systeem alleen hebben getraind op korte filmpjes (8 seconden), maar dat het nu perfect lange filmpjes (tot wel 5 minuten of meer) kan maken.

  • De analogie: Het is alsof je een kok leert om een perfect ei te bakken. Vervolgens vraag je die kok om een gigantische maaltijd voor 100 mensen te bereiden. Omdat de kok de basisprincipes (het "recept") zo goed heeft begrepen, kan hij die vaardigheid gewoon uitbreiden naar een veel grotere hoeveelheid, zonder dat hij opnieuw hoeft te leren koken.

Waarom is dit belangrijk?

Vroeger klonk het geluid bij lange video's vaak raar: het geluid viel weg, het werd eentonig, of het klopte niet meer met wat je zag.
Met MMHNet kun je nu een lange film of een spel laten draaien, en het computerprogramma bedacht het perfecte geluid (de voetstappen, de wind, de auto's) dat perfect past bij elk moment in de video, van seconde 1 tot seconde 300.

Kortom: Ze hebben een computer bedacht die niet meer "vergeten" wordt als het verhaal lang wordt, door slim te kijken naar het hele plaatje in plaats van alleen naar het nu, en door alleen naar de interessante momenten te luisteren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →