LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um estúdio de gravação mágico onde pode transformar qualquer texto em voz. O problema é que, até agora, controlar exatamente como essa voz soa (se é mais "brilhante", "calma" ou "jovem") era como tentar pintar um quadro segurando a tinta com as mãos amarradas.

Este artigo, chamado LibriTTS-VI, resolve dois grandes problemas desse "pintor de vozes": a falta de um manual de instruções público e o fato de que a voz de referência sempre "vaza" para a voz final, estragando o efeito desejado.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Vazamento de Impressão"

Antes, para criar uma voz nova com uma personalidade específica (digamos, "muito calma"), os pesquisadores precisavam de uma gravação de alguém falando (a referência) e dizer ao computador: "Use a voz dessa pessoa, mas deixe-a mais calma".

O problema era que o computador não separava bem as coisas. Era como se você pedisse a um cozinheiro: "Use o tempero do meu prato favorito, mas faça o prato ficar mais doce". O cozinheiro acabava misturando o sabor original (o tempero salgado) com o novo (doce), e o resultado não era exatamente o que você queria. Isso é chamado de vazamento de impressão: a voz de referência "contamina" a nova voz, impedindo que você controle a personalidade com precisão numérica.

Além disso, ninguém tinha um "livro de receitas" público com essas vozes anotadas. Tudo era segredo industrial, dificultando que outros cientistas melhorassem a tecnologia.

2. A Solução 1: O Novo "Livro de Receitas" (LibriTTS-VI)

Os autores criaram o LibriTTS-VI. Pense nisso como a primeira biblioteca pública de "perfis de voz" do mundo.

Eles pegaram milhares de áudios de uma biblioteca de vozes existente (LibriTTS-R).
Contrataram pessoas para ouvir e classificar cada voz em uma escala de 1 a 7 em 11 características diferentes (ex: "Masculino vs. Feminino", "Calmo vs. Agitado", "Escuro vs. Brilhante").
Resultado: Agora, qualquer pessoa pode acessar esses dados para treinar seus próprios sistemas de voz, sem precisar de segredos corporativos.

3. A Solução 2: Separar o "Quem" do "Como" (Disentangle)

Para resolver o problema do "vazamento", eles inventaram duas novas formas de ensinar o computador:

Método 1: O "Duplo Ator" (VIC-dis)
Imagine que você quer que um ator fale uma frase com uma voz de "velho sábio".
- Antes: Você mostrava uma foto de um velho falando e dizia "fale assim, mas seja sábio". O computador ficava confuso.
- Agora: Você pega duas frases da mesma pessoa.
  1. Uma frase serve apenas para dizer ao computador QUEM é o ator (a identidade).
  2. A outra frase serve apenas para dizer COMO ele deve falar (a personalidade/sotaque).
- O computador aprende a separar a "identidade" da "personalidade". É como pedir a um ator: "Use a sua cara (identidade), mas fale como se fosse um personagem diferente (personalidade)".
Método 2: O "Fantasma" (VIC-srf)
Aqui, eles foram além. Eles disseram: "Esqueça a gravação de referência!".
- Em vez de usar uma voz de exemplo, o computador recebe apenas os números da personalidade desejada (ex: "Nível 5 de calma, Nível 3 de brilho").
- É como se o computador tivesse uma "massa de modelar" pura e você apenas moldasse a forma com seus dedos (os números), sem precisar de um modelo de referência para copiar. Isso elimina totalmente o vazamento, pois não há voz de referência para "vazar".

4. O Resultado: Precisão Cirúrgica

Os testes mostraram que esses métodos funcionaram muito bem:

Precisão: A diferença entre a voz que você pediu e a voz que saiu diminuiu drasticamente. É como se antes você tentasse acertar um alvo a 10 metros e errasse por 2 metros, e agora errasse apenas por 50 centímetros.
Comparação com IA Moderna: Eles testaram contra modelos de IA baseados em texto (como o Qwen3-TTS), que usam descrições em linguagem natural (ex: "faça uma voz calma e jovem").
- O problema das IAs de texto: Elas são ótimas em entender o que você diz, mas péssimas em seguir números exatos. Se você pedir "calma nível 3", elas podem fazer uma voz "muito calma" ou "pouco calma" dependendo das palavras que você usou no texto.
- A vantagem deste trabalho: O método deles obedece aos números exatos, independentemente do texto que está sendo falado.

Resumo Final

Este trabalho é como dar a um pintor de vozes:

Um manual de cores público e gratuito (LibriTTS-VI).
Uma nova técnica de pincel que permite pintar a "personalidade" da voz sem misturar a "identidade" do falante (Disentangle).
A capacidade de pintar apenas com números, sem precisar de uma foto de referência (Reference-free).

O resultado é uma voz sintética que você pode controlar com precisão matemática, tornando a tecnologia de "Texto para Fala" muito mais útil e previsível para o futuro.

Each language version is independently generated for its own context, not a direct translation.

Título: LibriTTS-VI: Um Corpus Público e Métodos Novos para Controle Eficiente de Impressão Vocal

1. Problema Identificado

O artigo aborda dois desafios fundamentais no controle de Impressão Vocal (Voice Impression - VI) em sistemas de Síntese de Fala (TTS):

Ausência de Corpus Público: Métodos anteriores de controle de VI (como o trabalho de Fujita et al.) dependiam de corpora privados, dificultando a reprodutibilidade e o avanço da pesquisa na área.
Vazamento de Impressão (Impression Leakage): Mesmo quando é possível especificar separadamente a áudio de referência (para identidade do falante) e a VI alvo (para características como "brilhante", "calmo", etc.), a voz sintetizada tende a ser enviesada pela impressão da própria áudio de referência.
- Causa Hipotetizada: Os autores propõem que o vazamento ocorre porque um único utterance (frase) de referência é usado simultaneamente para condicionamento de identidade do falante e de VI durante o treinamento, fazendo com que o codificador de falante "entrelace" (entangle) essas duas informações.

2. Metodologia Proposta

Os autores propõem soluções para ambos os desafios, introduzindo um novo corpus e duas novas arquiteturas de treinamento.

A. LibriTTS-VI: Novo Corpus Público

Base: Construído sobre o corpus público LibriTTS-R.
Anotação: 130 frases de falantes distintos foram anotadas manualmente por especialistas internos em uma escala de Likert de 7 pontos.
Dimensões: Cobrem 11 dimensões de impressão vocal (ex: Baixo-Alto, Masculino-Feminino, Calmo-Inquieto, Escuro-Brilhante, etc.).
Expansão: Utilizou-se um estimador de VI (VIE) pré-treinado para rotular automaticamente o restante do corpus, aplicando uma estratégia de aumento de dados que seleciona frases acusticamente similares do mesmo falante para garantir a consistência da VI.

B. Métodos para Mitigar o Vazamento de Impressão

Para resolver o entrelaçamento entre identidade e VI, dois métodos foram propostos:

VIC-dis (Disentangled Training - Treinamento Desentrelaçado):
- Conceito: Em vez de usar a mesma frase de referência para extrair tanto a identidade quanto a VI alvo, o modelo utiliza duas frases diferentes do mesmo falante durante o treinamento.
- Mecanismo: Uma frase ( $r'$ ) fornece a identidade do falante, enquanto a outra frase ( $r$ ) fornece a VI alvo (extraída pelo VIE). Isso força o modelo a separar a identidade da impressão vocal sem alterar a arquitetura do backbone.
- Equação: $y = f(t, g(r', VIE(r)))$
VIC-srf (Speaker-Reference-Free - Livre de Referência de Falante):
- Conceito: Remove completamente a necessidade de áudio de referência para condicionamento de identidade.
- Mecanismo: Substitui a entrada de áudio de referência no codificador de falante por ruído gaussiano. A síntese é condicionada apenas pelo vetor de VI alvo.
- Objetivo: Se a VI representar suficientemente a identidade, o áudio de referência torna-se redundante, eliminando estruturalmente o vazamento.
- Equação: $y = f(t, g(z, VIE(r)))$ , onde $z$ é ruído.

3. Configuração Experimental

Backbone: Substituição do FastSpeech2 original pelo VITS (para melhor qualidade de áudio).
Comparativos:
- VIC-base: O método original (com vazamento).
- Qwen3-TTS (QVD): Um modelo baseado em LLM (Large Language Model) que usa prompts de texto natural para controle de voz, servindo como estado da arte em métodos baseados em linguagem.
Métricas:
- Objetivas: CER/WER (inteligibilidade), UTMOS (qualidade de áudio), SECS (similaridade de falante), VI-MSE (erro de controle) e $\Delta V$ (diferença entre erro com e sem referência para medir vazamento).
- Subjetivas: MOS (Mean Opinion Score) para qualidade e testes de controle de VI por humanos.

4. Resultados Principais

A. Controle e Vazamento (Objetivo)

Redução do Vazamento: O método VIC-srf eliminou quase completamente o vazamento de impressão.
- A diferença de erro ( $\Delta V$ ) caiu de 0.22 (VIC-base) para 0.05 (VIC-srf), indicando que a VI sintetizada não é mais enviesada pela referência.
- O VIC-dis também reduziu significativamente o vazamento para 0.14.
Precisão Numérica:
- Em um experimento de modulação (variar a VI de 1 a 7), o VIC-srf apresentou a maior inclinação (responsividade) média (0.199), superando o VIC-dis (0.159) e o VIC-base (0.121).
- O modelo Qwen3-TTS (LLM) mostrou controle numérico impreciso (inclinação média de 0.068) e instabilidade, falhando em manter a consistência em dimensões como "Masculino-Feminino".

B. Qualidade de Áudio e Similaridade

Qualidade: Todos os modelos baseados em VITS mantiveram alta qualidade (UTMOS ~4.25), comparável ao ground truth.
Similaridade de Falante:
- Modelos baseados em referência (VIC-base/dis) mantiveram alta similaridade (SECS ~0.75).
- O VIC-srf manteve uma similaridade aceitável (0.72), ainda superior à similaridade entre falantes diferentes (0.63), demonstrando que é possível controlar a VI sem áudio de referência sem perder totalmente a identidade.
Problema do LLM: O Qwen3-TTS teve baixa similaridade de falante (SECS 0.58), indicando dificuldade em preservar a identidade do falante apenas com prompts de texto.

C. Avaliação Subjetiva

Controle: Os métodos propostos (dis e srf) reduziram o Erro Quadrático Médio (MSE) subjetivo no controle de VI múltipla de 1.15 (base) para 0.92 (srf).
Qualidade: Não houve degradação significativa na qualidade de áudio percebida (MOS) em comparação com a linha de base, exceto em algumas condições específicas de modulação extrema.

5. Contribuições e Significância

LibriTTS-VI: É o primeiro corpus público dedicado ao controle de Impressão Vocal, permitindo que a comunidade científica reproduza e expanda pesquisas nessa área.
Solução para Vazamento: Demonstra que o vazamento de impressão é causado pelo uso de uma única referência para múltiplos condicionamentos. As soluções propostas (uso de duas frases ou remoção da referência) são eficazes para desacoplar identidade e estilo.
Superioridade sobre LLMs: O estudo revela que, embora modelos baseados em LLMs (como Qwen3-TTS) sejam versáteis, eles sofrem de:
- Falta de controle numérico preciso.
- Entrelaçamento entre semântica do texto e impressão vocal (ex: pontuação de exclamação altera involuntariamente a "calma" da voz).
- Dificuldade em preservar a identidade do falante.
Aplicabilidade Prática: Os métodos propostos permitem um controle fino e numérico de características vocais (como "brilho" ou "idade") sem a necessidade de fornecer uma amostra de áudio de referência, o que é crucial para aplicações de TTS escaláveis e personalizadas.

Em resumo, o trabalho estabelece novos padrões para o controle de voz em TTS, fornecendo dados públicos e métodos arquiteturais que superam as limitações de vazamento e imprecisão de modelos anteriores e baseados em linguagem natural.