LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un robot chef (il sistema di sintesi vocale) che può cucinare qualsiasi piatto (parlare qualsiasi testo) con la perfezione di un umano. Fino a poco tempo fa, questo robot era bravo a imitare la voce di qualcuno, ma non sapeva bene come "condire" il piatto per renderlo più allegro, più serio, più giovane o più calmo.

Questo articolo parla di come i ricercatori della Sony hanno risolto due grandi problemi per insegnare a questo robot a cucinare esattamente il "gusto" che vuoi.

Ecco la spiegazione semplice, con qualche metafora:

1. Il Problema: "Il Sapore che Non Scompare"

Immagina di voler cucinare una zuppa che deve essere molto calda e piccante (questo è il "Target VI", l'impressione vocale che vuoi).

Il vecchio metodo: Prendi una pentola di zuppa già pronta (la voce di riferimento) e aggiungi un po' di pepe (il target). Il problema è che la zuppa originale aveva già un sapore forte e specifico. Anche se aggiungi il pepe, la zuppa finale sa ancora troppo della pentola originale. Il sapore della zuppa "invasa" il nuovo gusto che volevi.
Il nome tecnico: Questo si chiama "Impression Leakage" (perdita di impressione). Il robot non riesce a separare la voce di chi parla dal "carattere" che vuoi dargli.

Inoltre, c'era un altro problema: nessuno aveva mai condiviso la lista della spesa (il corpus di dati) per insegnare a questi robot a capire questi "sapori" vocali. Tutto era segreto.

2. La Soluzione: La Nuova Lista della Spesa (LibriTTS-VI)

I ricercatori hanno creato LibriTTS-VI, la prima lista della spesa pubblica.
Hanno preso migliaia di voci registrate e le hanno etichettate manualmente da esperti. Hanno detto: "Questa voce è calma (7 su 7), quella è giovane (5 su 7), quest'altra è scura (3 su 7)".
È come se avessero creato un grande dizionario che traduce le parole "caldo", "freddo", "giovane" in numeri precisi che il computer può capire.

3. I Due Trucchi Magici per il Robot

Per risolvere il problema della "zuppa che sa troppo dell'originale", hanno inventato due nuovi metodi di cottura:

Metodo A: La Cottura "Separata" (VIC-dis)

Immagina di voler fare una zuppa piccante.

Vecchio modo: Prendi la zuppa originale e provi a cambiarne il sapore.
Nuovo modo (Disentanglement): Prendi due pentole diverse dalla stessa persona.
1. Una pentola ti dà solo l'identità del cuoco (chi sta parlando).
2. L'altra pentola ti dà solo il "sapore" (l'impressione che vuoi, es. calma).
  Il robot impara a mescolare l'identità del cuoco con il nuovo sapore, senza farsi confondere dal sapore originale della prima pentola. È come se il robot dicesse: "Ok, so che è il cuoco Mario, ma oggi lo faccio parlare in modo calmo, ignorando come parlava di solito".

Metodo B: La Cottura "Senza Pentola" (VIC-srf)

Questo è ancora più radicale.

Invece di usare una zuppa esistente come base, il robot crea la zuppa da zero usando solo la ricetta (il numero che indica il "sapore" desiderato).
Non serve più la voce di riferimento. Se vuoi una voce "giovane e calda", il robot genera direttamente quella voce basandosi solo sui numeri della ricetta. È come se il robot avesse imparato a memoria tutti i sapori possibili e non avesse più bisogno di un esempio fisico per iniziare.

4. Il Confronto con i "Capi Chef" Intelligenze Artificiali (LLM)

I ricercatori hanno anche provato a usare i nuovi "Capi Chef" super intelligenti (i modelli basati su LLM come Qwen3-TTS), che capiscono le istruzioni in linguaggio naturale (es. "Parla come un vecchio saggio").

Il risultato: Questi chef sono bravi a capire il testo, ma sono imprecisi quando devi dire "metti esattamente 3.5 grammi di sale". Se dici "parla un po' più calmo", loro potrebbero esagerare o non capire bene. Inoltre, se nel testo c'è una parola triste, la loro voce diventa triste anche se tu volevi solo un tono calmo.
Il vantaggio dei metodi Sony: I loro metodi sono come un termometro di precisione. Se imposti il numero 4.2, ottieni esattamente 4.2, senza che il testo influenzi il risultato.

In Sintesi: Cosa hanno ottenuto?

Hanno creato:

Un manuale pubblico (LibriTTS-VI) per insegnare alle macchine i "sapori" della voce.
Due tecniche di cucina per assicurarsi che il robot non confonda la voce originale con il nuovo stile che vuoi dargli.

Il risultato finale?
Il robot ora può cambiare la sua voce in modo molto più preciso (come un mixer audio che regola i bassi e gli alti con esattezza matematica) senza perdere la qualità del suono. È come passare da un vecchio telecomando con pochi tasti a un mixer professionale dove puoi regolare ogni singolo dettaglio della voce esattamente come desideri.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control", presentato in italiano.

1. Il Problema

Il controllo numerico delle impressioni vocali (Voice Impression Control - VIC) nel Text-to-Speech (TTS) permette di regolare finemente caratteristiche come la luminosità, la calma o la potenza della voce su una scala numerica. Tuttavia, la ricerca in questo campo affronta due ostacoli principali:

Mancanza di un corpus pubblico: I metodi precedenti si basavano su dataset privati, rendendo difficile la riproducibilità e lo sviluppo di studi successivi.
Perdita di impressione (Impression Leakage): Quando si utilizza un audio di riferimento per mantenere l'identità del parlante, l'impressione vocale target (es. "calma") viene spesso distorta dall'impressione intrinseca dell'audio di riferimento stesso. Questo accade perché l'identità del parlante e l'impressione vocale sono "intrecciate" (entangled) nel processo di training quando si usa una singola frase di riferimento per entrambi gli scopi.

2. Metodologia

Gli autori propongono una soluzione articolata in due parti: la creazione di un nuovo dataset e l'innovazione architetturale dei modelli.

A. LibriTTS-VI: Il Nuovo Corpus

Per risolvere la mancanza di dati pubblici, gli autori hanno creato LibriTTS-VI, un corpus basato su LibriTTS-R.

Annotazione: Sono state selezionate 130 frasi da parlanti distinti e annotate manualmente da esperti interni su una scala Likert a 7 punti per 11 dimensioni di impressione vocale (es. Maschile-Femminile, Calmo-Irrequieto, Chiaro-Rauco).
Estensione: Utilizzando un estimatore di impressione vocale (VIE) addestrato su queste annotazioni, è stato etichettato l'intero corpus LibriTTS-R. Per garantire la qualità, è stata adottata una strategia di augmentation che seleziona solo frasi acusticamente simili (basate su pitch, energia e embedding WavLM) dello stesso parlante per assegnare le etichette, evitando l'assunzione troppo rigida che ogni parlante abbia un'impressione costante in ogni contesto.

B. Nuovi Metodi per Mitigare la Perdita di Impressione

Gli autori ipotizzano che l'uso di un'unica frase di riferimento ( $r$ ) per condizionare sia l'identità del parlante che l'impressione target ( $v$ ) causi la perdita di controllo. Propongono due strategie per disaccoppiare queste informazioni:

VIC-dis (Disentanglement):
- Utilizza due frasi diverse dello stesso parlante durante l'addestramento.
- Una frase ( $r'$ ) fornisce l'identità del parlante, mentre l'altra ( $r$ ) fornisce l'impressione vocale target.
- Questo approccio disaccoppia l'identità dall'impressione senza modificare l'architettura di base, permettendo al modello di apprendere l'identità indipendentemente dall'impressione specifica della frase di riferimento.
VIC-srf (Speaker-Reference-Free):
- Elimina completamente l'audio di riferimento dal processo di sintesi.
- L'impressione vocale è controllata esclusivamente dal vettore target $v$ .
- L'input che solitamente fornirebbe l'identità del parlante viene sostituito con rumore gaussiano ( $z$ ), costringendo il modello a generare l'identità del parlante basandosi solo sull'impressione desiderata e sul testo.

3. Contributi Chiave

LibriTTS-VI: Il primo corpus pubblico dedicato al controllo numerico delle impressioni vocali, completo di linee guida di annotazione e valori stimati per l'intero dataset LibriTTS-R.
Strategie di Disentanglement: Dimostrazione che separare le fonti di identità e impressione (tramite frasi multiple o eliminazione del riferimento) riduce significativamente la "perdita di impressione".
Confronto con Modelli LLM: Valutazione critica dei modelli TTS basati su Large Language Models (come Qwen3-TTS), evidenziando i loro limiti nel controllo numerico preciso e la tendenza a intrecciare la semantica del testo con le caratteristiche prosodiche.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su 39 parlanti non visti (zero-shot) utilizzando il set di test LibriTTS-R test-clean.

Controllo Numerico (Obiettivo):
- L'errore quadratico medio (MSE) delle 11 dimensioni di VI è sceso da 0.61 (metodo base) a 0.41 con il metodo VIC-srf.
- La metrica di perdita di impressione ( $\Delta V$ , differenza tra errore su target reale e target casuale) è stata ridotta drasticamente da 0.22 (base) a 0.05 (srf), indicando che il modello non è più influenzato dall'audio di riferimento.
Qualità Audio e Somiglianza:
- I metodi proposti hanno mantenuto un'alta qualità di sintesi (UTMOS) e una buona somiglianza del parlante (SECS), paragonabili ai modelli di base.
- Il metodo VIC-srf ha mantenuto una somiglianza del parlante superiore alla media incrociata (0.72 vs 0.63), dimostrando di poter generare un'identità coerente senza audio di riferimento.
Confronto con LLM (Qwen3-TTS):
- I modelli basati su prompt testuali (NL) hanno mostrato un controllo numerico impreciso (MSE più alto) e una forte correlazione tra il contenuto semantico del testo e l'impressione vocale generata (es. l'uso di punti esclamativi rendeva la voce più "irrequieta" indipendentemente dal target).
Valutazione Soggettiva:
- Gli annotatori umani hanno confermato una migliore controllabilità per i metodi proposti, con un MSE soggettivo che è sceso da 1.15 (base) a 0.92 (srf) nella modulazione multi-dimensionale, senza degradazione significativa della qualità audio percepita.

5. Significato e Impatto

Questo lavoro rappresenta un passo avanti significativo per il campo del TTS controllabile:

Accessibilità: Rendendo pubblico il corpus LibriTTS-VI, si abilita la comunità di ricerca a sviluppare e confrontare nuovi metodi in modo standardizzato.
Precisione: Le nuove metodologie risolvono il problema fondamentale della "perdita di impressione", permettendo un controllo numerico fine-granulare che non è vincolato dall'audio di riferimento.
Superiorità rispetto agli LLM: Il paper dimostra che, per compiti di controllo vocale numerico preciso, approcci specializzati e strutturati (come VIC-dis/srf) sono attualmente superiori all'uso generico di prompt testuali con modelli LLM, che tendono a confondere semantica e prosodia.

In sintesi, gli autori hanno fornito sia i dati necessari (corpus) che gli strumenti algoritmici (metodi di disentanglement) per realizzare un controllo vocale TTS più robusto, preciso e privo di bias indotti dal riferimento.