LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen, mit ein paar kreativen Vergleichen.

Das große Problem: Der „Geister-Effekt" beim KI-Stimmen-Generator

Stell dir vor, du hast einen magischen Roboter, der jede Sprache sprechen kann. Du möchtest, dass er eine Geschichte erzählt, aber nicht einfach nur „normal", sondern mit einer ganz bestimmten Stimmung (im Englischen „Voice Impression"). Vielleicht soll die Stimme „fröhlich und hell" oder „ruhig und warm" klingen.

Das Problem, das die Forscher von Sony gefunden haben, ist wie ein Geister-Effekt:
Wenn du dem Roboter sagst: „Sprich wie diese Person, aber sei so ruhig", passiert oft etwas Seltsames. Die KI ignoriert deine Ruhe-Anweisung und übernimmt stattdessen die Stimmung der Person, die du als Beispiel vorgegeben hast.

Beispiel: Du willst eine ruhige Stimme. Aber das Beispiel, das du ihr gibst, ist eine aufgeregte Person. Die KI denkt: „Aha, diese Person ist aufgeregter als ruhig" und macht die Stimme trotzdem aufgeregt. Die gewünschte Stimmung „leckt" aus dem Beispiel heraus und verdirbt das Ergebnis. Das nennen die Forscher Impression Leakage (Stimmungs-Auslaufen).

Zusätzlich gab es ein zweites Problem: Es gab keine öffentliche Bibliothek mit solchen „Stimmungs-Daten". Forscher mussten sich alles selbst zusammenbasteln, wie ein Koch, der keine Rezepte hat und nur raten muss, wie viel Salz in die Suppe kommt.

Die Lösung: LibriTTS-VI (Das neue Kochbuch)

Um das erste Problem zu lösen, haben die Forscher ein riesiges, öffentliches Kochbuch namens LibriTTS-VI erstellt.

Sie haben Tausende von Sprachaufnahmen genommen.
Menschen haben sich diese angehört und sie auf einer Skala von 1 bis 7 bewertet (z. B. „Wie hell ist die Stimme?", „Wie jung wirkt sie?", „Wie ruhig ist sie?").
Jetzt hat jeder Forscher auf der Welt Zugriff auf dieses Buch und weiß genau, welche Stimme welche Stimmung hat.

Die zwei neuen Tricks: Wie man den Geister-Effekt besiegt

Die Forscher haben zwei neue Methoden entwickelt, um sicherzustellen, dass die KI genau das macht, was du willst, und nicht das, was das Beispiel-Beispiel vorspielt.

Trick 1: Die Trennung von Identität und Stimmung (VIC-dis)

Stell dir vor, du willst einen Schauspieler, der eine bestimmte Rolle spielt.

Der alte Weg: Du gibst dem Schauspieler ein Video von sich selbst in einer Wut-Szene und sagst: „Spiele jetzt eine ruhige Rolle." Der Schauspieler ist verwirrt: „Aber ich bin doch gerade wütend!" und spielt es halb wütend.
Der neue Weg (Disentanglement): Du gibst dem Schauspieler zwei Dinge:
1. Ein Foto von ihm, damit er seine Stimme (Identität) erkennt.
2. Ein anderes Video von ihm, das er gerade ruhig spricht, damit er die Stimmung lernt.
Die KI lernt so: „Okay, die Stimme gehört zu Person A, aber die Stimmung kommt aus diesem anderen Clip." So werden Identität und Stimmung entkoppelt. Die KI kann die Stimme von Person A behalten, aber die gewünschte Ruhe aus dem zweiten Clip übernehmen.

Trick 2: Der Zauberstab ohne Beispiel (VIC-srf)

Dies ist noch radikaler. Stell dir vor, du willst eine Stimme, die „kalt und distanziert" klingt.

Der alte Weg: Du musst der KI ein Beispiel geben. Aber das Beispiel bringt immer seine eigene „Wärme" mit.
Der neue Weg (Referenz-frei): Die KI bekommt kein Beispiel mehr. Stattdessen gibst du ihr nur eine Zahl (z. B. „Stimme: 3 von 7 auf der Skala 'Kalt-Warm'").

Die KI nutzt einen Zufalls-Generator (wie einen Würfel), um eine leere Schablone zu füllen, und füllt sie nur mit deiner Zahl. Es ist, als würdest du einem Maler sagen: „Malt ein Bild, das genau 30 % Blau hat", ohne ihm eine Vorlage zu zeigen. Da keine Vorlage da ist, kann auch keine „falsche Stimmung" durchschimmern.

Das Ergebnis: Bessere Kontrolle, gleiche Qualität

Die Forscher haben ihre neuen Methoden getestet und verglichen:

Präzision: Die neuen Methoden trafen das Ziel viel genauer. Wenn man sagte „Mach die Stimme etwas heller", wurde sie heller, ohne dass andere Eigenschaften (wie die Lautstärke) verrückt spielten.
Vergleich mit großen Sprachmodellen (LLMs): Sie haben auch moderne KI-Modelle getestet, die man mit Textbefehlen steuert (z. B. „Mach die Stimme wie ein müder Opa"). Diese Modelle waren oft ungenau. Wenn man im Text ein Ausrufezeichen setzte, wurde die KI plötzlich „aufgeregt", obwohl man „müde" wollte. Die KI verwechselte die Bedeutung des Textes mit der Stimmung der Stimme. Die neuen Methoden von Sony haben dieses Problem gelöst.
Qualität: Die Stimmen klangen immer noch natürlich und menschlich. Die Kontrolle über die Stimmung ging nicht zu Lasten der Klangqualität.

Zusammenfassung in einem Satz

Die Forscher haben ein öffentliches Wörterbuch für Stimmungen erstellt und zwei neue Tricks entwickelt, damit eine KI-Stimme genau so klingt, wie du es dir vorstellst, ohne sich von den Beispielen, die du ihr gibst, verwirren zu lassen – so wie ein Schauspieler, der seine eigene Stimme behält, aber jede Rolle perfekt spielen kann, ohne dass die vorherige Rolle nachklingt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control" auf Deutsch:

1. Problemstellung

Die Arbeit adressiert zwei zentrale Herausforderungen im Bereich der Stimmeindruckskontrolle (Voice Impression Control, VIC) bei Text-to-Speech (TTS)-Systemen:

Fehlen öffentlicher Datensätze: Bisherige VIC-Methoden (wie das ursprüngliche VIC-System [24]) basierten auf privaten Korpora, was die Reproduzierbarkeit und Weiterentwicklung der Forschung erschwerte.
Impression Leakage (Eindruck-Leckage): Ein kritisches Phänomen, bei dem die synthetisierte Stimme trotz Vorgabe eines Ziels-Stimmeindrucks (Target VI) unbewusst vom Referenz-Audio beeinflusst wird. Das System vermischt die Identität des Sprechers mit dem gewünschten Eindruck, da beide Bedingungen oft aus derselben einzigen Referenzutteranz ( $r$ ) abgeleitet werden. Dies führt zu einer ungewollten Verzerrung des Ziels.

Zudem wird die begrenzte Präzision bestehender Ansätze kritisiert: Während akustische Merkmale (Pitch, Energie) präzise, aber für Nutzer zu granular sind, bieten natürliche Sprach-Prompts (NL) keine feingranulare numerische Kontrolle.

2. Methodik

Die Autoren schlagen einen dreiteiligen Ansatz vor, um diese Probleme zu lösen:

A. Einführung von LibriTTS-VI (Korpus)

Um das Datenproblem zu lösen, wurde LibriTTS-VI erstellt, das erste öffentliche Korpus für VIC, basierend auf dem bestehenden LibriTTS-R-Datensatz.

Annotation: 130 Utterances von verschiedenen Sprechern wurden von vier Experten auf einer 7-stufigen Likert-Skala für 11 Dimensionen (z. B. hell-dunkel, ruhig-unruhig, männlich-weiblich) annotiert.
Skalierung: Ein trainierter VI-Estimator (VIE) wurde verwendet, um die manuellen Labels auf den gesamten LibriTTS-R-Datensatz zu übertragen. Um die Annahme eines konstanten Stimmeindrucks pro Sprecher zu lockern, wurde eine neue Daten-Augmentierungsstrategie angewendet, die nur akustisch ähnliche Utterances desselben Sprechers für die Label-Übertragung nutzt.

B. Entkopplung der Bedingungen (VIC-dis)

Um das Impression Leakage zu reduzieren, wird die Hypothese aufgestellt, dass die Verwendung einer einzigen Referenzutteranz für sowohl Sprecheridentität als auch Stimmeindruck die Ursache ist.

Lösung: Das System VIC-dis (Disentanglement) nutzt während des Trainings zwei verschiedene Utterances desselben Sprechers:
- Eine Utteranz ( $r'$ ) dient ausschließlich zur Extraktion der Sprecheridentität.
- Eine andere Utteranz ( $r$ ) dient zur Extraktion des Ziel-Stimmeindrucks (VI) durch den VIE.
Dies erzwingt eine Entkopplung von Identität und Eindruck im Modell, ohne die Architektur grundlegend zu ändern.

C. Referenz-freie Generierung (VIC-srf)

Die radikalere Methode VIC-srf (Speaker-Reference-Free) eliminiert die Referenzutteranz komplett aus dem Syntheseprozess.

Lösung: Anstatt eine Referenzutteranz zu verwenden, wird der erste Term in der Kontrollmodulation durch Gaußsches Rauschen ( $z$ ) ersetzt.
Die Synthese wird ausschließlich durch den Ziel-VI-Vektor ( $v$ ) gesteuert. Dies verhindert strukturell jegliche Leckage von Referenz-Eindrücken.

D. Architektur-Details

Backbone: Die Autoren ersetzen das ursprüngliche FastSpeech2 durch VITS für höhere Audioqualität.
Steuerung: Ein Control Module (CM) moduliert die Sprecher-Embeddings basierend auf dem Ziel-VI. Ein Gradient Reversal Layer (GRL) wird genutzt, um VI-Hinweise im Sprecher-Embedding zu unterdrücken.
Vergleichsmodell: Ein LLM-basierter Ansatz (Qwen3-TTS) wurde evaluiert, bei dem numerische VI-Werte in natürliche Sprach-Prompts (NL) übersetzt wurden.

3. Schlüsselergebnisse

Die Evaluation erfolgte objektiv (auf dem LibriTTS-R Test-Clean-Set) und subjektiv (MOS und Kontrollierbarkeit).

Objektive Metriken (Kontrollierbarkeit):
- Der Mean Squared Error (MSE) des 11-dimensionalen VI-Vektors sank signifikant.
- Objektiv: Von 0,61 (Basis) auf 0,41 (VIC-srf).
- Subjektiv: Von 1,15 (Basis) auf 0,92 (VIC-srf).
- Leckage-Messung ( $\Delta V$ ): Der Unterschied zwischen dem Fehler bei gleicher und unterschiedlicher Referenz sank von 0,22 (Basis) auf 0,05 (VIC-srf), was eine fast vollständige Beseitigung der Leckage bestätigt.
Audioqualität:
- Die vorgeschlagenen Methoden (VIC-dis, VIC-srf) behielten eine hohe Sprachqualität bei (UTMOS und MOS), die mit dem Ground Truth vergleichbar ist. Es gab keine signifikante Verschlechterung der Intelligibilität (CER/WER).
Vergleich mit LLMs (Qwen3-TTS):
- LLM-basierte Modelle zeigten eine ungenauere numerische Kontrolle (niedrigere Steigung in Modulationsexperimenten).
- Es trat eine starke Verflechtung (Entanglement) zwischen Textsemantik und Stimmeindruck auf (z. B. beeinflusste ein Ausrufezeichen im Text den vorhergesagten Eindruck von „ruhig" zu „unruhig").
- Die Sprecherähnlichkeit (SECS) war bei LLMs schlechter als bei den referenzbasierten Modellen.

4. Bedeutung und Beitrag

Öffentliches Ressourcen-Ökosystem: Mit LibriTTS-VI stellen die Autoren die erste öffentliche Ressource für VIC bereit, was zukünftige Forschung in diesem Bereich demokratisiert und reproduzierbar macht.
Effektive Entkopplung: Die Arbeit beweist, dass Impression Leakage primär durch die gemeinsame Nutzung einer Referenzutteranz für Identität und Eindruck entsteht. Die vorgeschlagenen Methoden (insbesondere VIC-srf) bieten eine elegante Lösung, die die Kontrolle über den Stimmeindruck präzise macht, ohne die Sprecheridentität zu verzerren.
Überlegenheit gegenüber LLM-Prompts: Die Studie zeigt, dass für feingranulare, numerische Kontrolle von Stimmeigenschaften dedizierte, strukturell angepasste TTS-Architekturen derzeit überlegen sind gegenüber reinen Natural-Language-Prompting-Ansätzen, die unter Semantik-Verflechtungen leiden.
Praktische Anwendbarkeit: Die Kombination aus hoher Kontrollierbarkeit und guter Audioqualität macht diese Methoden für Anwendungen interessant, bei denen spezifische, numerisch definierbare Stimmcharakteristika (z. B. „30% heller, 20% ruhiger") benötigt werden, ohne auf eine Referenzaufnahme angewiesen zu sein.

Zusammenfassend stellt das Paper einen wichtigen Schritt dar, um die Text-to-Speech-Technologie von der reinen Nachahmung hin zur präzisen, kontrollierbaren Gestaltung von Stimmeigenschaften zu führen.