Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Filmemacher. Du hast einen langen, spannenden Film gedreht, aber das Tonaufnahmegerät war kaputt. Jetzt brauchst du jemanden, der den ganzen Film anhört und die passenden Geräusche (Schritte, Wind, Explosionen) im richtigen Moment hinzufügt.

Bisher waren die KI-Modelle für diese Aufgabe wie kleine Kinder, die nur kurze Sätze verstehen konnten. Wenn du ihnen einen 10-Sekunden-Clip gabst, konnten sie das perfekt machen. Aber wenn du ihnen einen 5-minütigen Film gabst, wurden sie verwirrt. Sie vergaßen, was am Anfang passiert war, oder die Geräusche passten plötzlich nicht mehr zum Bild. Das lag daran, dass sie ihre „Gedächtnisstützen" (Positionscodes) nur für kurze Zeit ausgelegt hatten.

Hier kommt die neue Erfindung aus dem Papier vor: MMHNet.

Das Problem: Der „Kurze-Atem"-Effekt

Die alten Modelle waren wie ein Musiker, der nur ein paar Takte spielen kann. Wenn man ihn bittet, ein ganzes Konzert zu spielen, verliert er den Takt.

Das alte Problem: Die Modelle wurden nur mit kurzen Videos (ca. 8 Sekunden) trainiert. Wenn man sie dann mit langen Videos testete, versagten sie. Sie wussten nicht, wie sie sich über längere Zeit orientieren sollten.
Die Folge: Bei langen Videos klangen die Geräusche oft wie ein durcheinander gewürfelter Haufen oder hörten einfach auf, zum Bild zu passen.

Die Lösung: MMHNet – Der erfahrene Dirigent

Die Forscher haben ein neues System gebaut, das wie ein erfahrener Dirigent funktioniert, der ein ganzes Orchester leiten kann, ohne den Takt zu verlieren.

Hier sind die drei genialen Tricks, die sie benutzt haben:

1. Der „Ohne-Noten"-Trick (Non-Causal Mamba)

Die alten Modelle mussten jede Sekunde in einer strengen Reihenfolge lesen, wie ein Buch, das man Seite für Seite liest. Wenn das Buch zu lang wurde, vergaßen sie den Anfang.

Die neue Methode: MMHNet nutzt eine Technologie namens Mamba. Stell dir das vor wie einen Dirigenten, der das ganze Orchester auf einmal sieht. Er muss nicht warten, bis die Geige spielt, um zu wissen, was die Trompete macht. Er kann den gesamten Film „auf einen Blick" erfassen, egal ob er 10 Sekunden oder 5 Minuten dauert. Er braucht keine starren „Noten" (Positionscodes), die ihn an kurze Stücke binden.

2. Der „Intelligente Filter" (Hierarchisches Routing)

Stell dir vor, du musst einen 5-minütigen Film analysieren. Die meiste Zeit passiert aber gar nichts Spannendes (z. B. eine ruhige Landschaft).

Das alte Problem: Die KI versuchte, jede einzelne Sekunde mit der gleichen Intensität zu bearbeiten. Das war wie ein Übersetzer, der jedes Wort eines langen Buches Wort für Wort übersetzen wollte, auch wenn es nur „Äh" und „Ähm" waren. Das war ineffizient und verwirrte das System.
Die neue Methode: MMHNet hat einen intelligenten Filter. Er schaut sich den Film an und sagt: „Moment, hier passiert nichts, das ignorieren wir mal." Er konzentriert sich nur auf die wichtigen Momente (wenn jemand spricht oder ein Ball aufspringt). Das nennt man hierarchisches Routing. Es ist wie ein Lesezeichen, das nur die spannenden Kapitel markiert, damit der Dirigent nicht den Überblick verliert.

3. Der „Kurz-Trainiert, Lang-Geübt"-Effekt

Das Coolste an diesem Papier ist, dass sie das Modell nur mit kurzen Clips trainiert haben (wie ein Musiker, der nur Etüden übt), aber es mit langen Filmen getestet haben (wie ein Konzert).

Normalerweise denkt man: „Wenn du nur kurze Stücke übst, kannst du kein langes Konzert spielen."
Aber MMHNet hat bewiesen: Wenn du die richtige Struktur (den Dirigenten-Stil und den Filter) hast, kannst du das Gelernte auf jede Länge übertragen. Es ist, als würde man einem Kind beibringen, wie man ein Rad fährt, und es könnte danach auch ein ganzes Fahrradrennen fahren, ohne extra dafür trainiert worden zu sein.

Das Ergebnis

In Tests hat MMHNet gezeigt, dass es über 5 Minuten lange Videos perfekt vertonen kann.

Vergleich: Andere Modelle (wie LoVA oder V-AURA) haben bei langen Videos angefangen, Geräusche zu verzerren oder den Takt zu verlieren.
MMHNet: Bleibt auch nach 5 Minuten synchron. Wenn im Video jemand fällt, macht es genau dann ein „Patsch"-Geräusch, nicht erst eine Sekunde später oder gar nicht.

Zusammenfassung in einem Satz

MMHNet ist wie ein unermüdlicher, allsehender Dirigent, der gelernt hat, wie man Geräusche erstellt, indem er nur kurze Proben sah, aber jetzt in der Lage ist, ganze Symphonien (lange Filme) zu dirigieren, ohne den Takt zu verlieren oder den Überblick zu verlieren.

Das Papier zeigt also, dass wir endlich KI-Modelle haben, die nicht nur für TikTok-Clips (kurz) taugen, sondern auch für echte Hollywood-Filme (lang).

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Das Problem: Der „Kurze-Atem"-Effekt

Die Lösung: MMHNet – Der erfahrene Dirigent

1. Der „Ohne-Noten"-Trick (Non-Causal Mamba)

2. Der „Intelligente Filter" (Hierarchisches Routing)

3. Der „Kurz-Trainiert, Lang-Geübt"-Effekt

Das Ergebnis

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: MMHNet

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Das Problem: Der „Kurze-Atem"-Effekt

Die Lösung: MMHNet – Der erfahrene Dirigent

1. Der „Ohne-Noten"-Trick (Non-Causal Mamba)

2. Der „Intelligente Filter" (Hierarchisches Routing)

3. Der „Kurz-Trainiert, Lang-Geübt"-Effekt

Das Ergebnis

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: MMHNet

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction