Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Die Arbeit stellt Vevo2 vor, ein einheitliches und steuerbares Framework für die Erzeugung von Sprache und Gesang, das durch zwei spezielle Audio-Tokenisierer und eine mehrstufige Modellierungsschritte die Herausforderungen der Datenknappheit und der flexiblen Kontrolle von Prosodie, Stil und Klangfarbe überwindet.

Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu

Veröffentlicht 2026-03-06
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Vevo2: Der „Alleskönner" für menschliche Stimmen – Eine einfache Erklärung

Stellen Sie sich vor, Sie haben einen genialen Koch, der nicht nur perfekt kochen kann, sondern auch singen kann. Bisher waren die Küchenchefs der KI-Welt jedoch getrennt: Der eine konnte nur reden (wie ein Nachrichtensprecher), der andere nur singen (wie ein Opernsänger). Um beide Fähigkeiten zu vereinen, brauchte man bisher zwei verschiedene Kochbücher und zwei verschiedene Küchen.

Das neue Papier stellt Vevo2 vor. Es ist wie ein Super-Koch, der in einer einzigen Küche sowohl das Kochen (Reden) als auch das Singen beherrscht und dabei alles perfekt kontrollieren kann.

Hier ist die Geschichte von Vevo2, aufgeteilt in drei einfache Teile:

1. Die zwei magischen Übersetzer (Die Tokenizer)

Damit der KI-Koch versteht, was er tun soll, braucht er eine Sprache, die er lesen kann. Vevo2 erfindet zwei neue Wörterbücher, die alles vereinen:

  • Der „Melodie-Übersetzer" (Prosody Tokenizer):

    • Das Problem: Normalerweise braucht man für das Singen ein Notensystem (wie in einem Musikbuch), das man mühsam von Hand schreiben muss. Das ist selten und schwer zu finden.
    • Die Lösung: Vevo2 benutzt einen Übersetzer, der keine Noten braucht. Er hört einfach zu, wie die Musik klingt (sogar bei Instrumenten wie einer Geige oder beim Summen) und wandelt das in ein einfaches Raster um.
    • Die Analogie: Stellen Sie sich vor, Sie hören eine Melodie. Ein normaler Koch würde fragen: „Welche Note ist das? Ist es ein C oder ein D?" Vevo2 sagt einfach: „Ich höre den Rhythmus und die Höhe der Welle." Das funktioniert für Reden, Singen und sogar für Klaviermusik gleichermaßen.
  • Der „Inhalt-Übersetzer" (Content-Style Tokenizer):

    • Das Problem: Wenn eine KI singt, vermischt sie oft die Stimme des Sängers mit dem, was gesungen wird.
    • Die Lösung: Dieser Übersetzer trennt alles sauber auf. Er sagt: „Das hier ist der Text (was gesagt wird), das hier ist der Stil (ob es traurig, laut oder flüsternd ist), und das hier ist die Stimme (wer spricht)."
    • Die Analogie: Es ist wie ein Lego-Satz. Die roten Steine sind der Text, die blauen Steine sind die Melodie, und die gelben Steine sind die Stimme. Vevo2 kann die roten und blauen Steine nehmen und sie mit jeder gelben Stimme kombinieren, die man möchte.

2. Der gemeinsame Trainingscamp (Joint Training)

Früher lernten Reden und Singen getrennt. Vevo2 bringt sie zusammen in ein gemeinsames Trainingslager.

  • Die Strategie: Der KI wird beides gleichzeitig beigebracht.
    • Szenario A (Explizit): Der KI wird gesagt: „Hier ist der Text, und hier ist die Melodie. Singe es!" (Wie ein Dirigent, der dem Orchester die Noten zeigt).
    • Szenario B (Implizit): Der KI wird nur der Text gegeben. Sie muss die Melodie selbst erraten. (Wie ein Schauspieler, der den Text liest und die Emotionen selbst findet).
  • Der Vorteil: Durch das Mischen dieser beiden Methoden lernt die KI, dass Reden und Singen eigentlich verwandt sind. Sie nutzt die riesige Menge an Rededaten, um besser zu singen, und nutzt die expressive Kraft des Singens, um emotionaler zu reden.

3. Der Feinschliff (Post-Training)

Nach dem ersten Training ist die KI schon gut, aber nicht perfekt. Sie versteht manchmal den Text nicht ganz oder singt die Melodie nur „ungefähr".

  • Die Lösung: Die Forscher geben der KI eine Prüfung mit Belohnung.
    • Sie bekommen Punkte, wenn der Text klar verständlich ist (Intelligibility).
    • Sie bekommen Punkte, wenn die Melodie exakt stimmt (Prosody Similarity).
  • Das Ergebnis: Die KI lernt, dass sie beides gleichzeitig perfekt machen muss. Sie wird stabiler und kann sogar Dinge tun, die vorher unmöglich schienen, wie zum Beispiel eine Geigenmelodie in einen Gesang umzuwandeln oder jemanden summen zu lassen, der dann in einen Song verwandelt wird.

Was kann Vevo2 alles machen?

Stellen Sie sich Vevo2 als einen Schweizer Taschenmesser für Stimmen vor. Es kann:

  • Text in Gesang verwandeln: Geben Sie einen Text und eine Melodie (z. B. von einem Klavier) vor, und Vevo2 singt ihn mit der Stimme eines beliebigen Sängers.
  • Stimmen tauschen: Nehmen Sie eine Stimme und übertragen Sie den Stil (z. B. „wütend" oder „flüsternd") auf eine andere Person.
  • Lieder bearbeiten: Ändern Sie den Text eines Liedes, aber behalten Sie die ursprüngliche Melodie und den Gesangsstil bei.
  • Summen in Gesang: Sie summen eine Melodie, und Vevo2 macht daraus einen fertigen Song mit Text.

Fazit

Vevo2 ist ein Durchbruch, weil es die Grenzen zwischen „Reden" und „Singen" auflöst. Es zeigt uns, dass man KI nicht für jede Aufgabe separat trainieren muss. Wenn man sie gemeinsam lernen lässt, werden sie in beiden Bereichen besser, flexibler und kreativer. Es ist, als hätte man einen Schauspieler gefunden, der nicht nur jede Rolle spielen, sondern auch jede Melodie singen kann – und das alles mit nur einem einzigen Gehirn.