TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artigo propõe a arquitetura TSPC, um modelo de reconhecimento de fala de código alternado vietnamita-inglês baseado em fonemas que, através de uma abordagem de duas etapas, supera os métodos existentes com menor taxa de erro de palavras e menor consumo de recursos computacionais.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam, Minh N. H. Nguyen

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando entender uma conversa onde as pessoas misturam duas línguas diferentes: o Vietnamita e o Inglês. Isso é chamado de "alternância de código" (code-switching).

O problema é que os computadores (os sistemas de reconhecimento de voz) costumam ficar confusos nessa situação. É como se eles ouvissem uma palavra em inglês, mas, por causa da semelhança de som, a escrevessem errada em vietnamita.

Por exemplo, se alguém diz a palavra inglesa "concert" (show), o computador pode ouvir e escrever "con sót" (que em vietnamita significa algo como "filho sobrevivente" ou "sobrinho", dependendo do contexto, mas é um erro total de significado). O computador não consegue distinguir a "sombra" do sotaque.

Os autores deste artigo criaram uma solução inteligente chamada TSPC. Vamos explicar como funciona usando uma analogia simples:

A Analogia do "Tradutor de Sombra"

Imagine que o sistema de reconhecimento de voz tradicional é como um tradutor que tenta adivinhar a palavra final direto do som. Se o som é ambíguo, ele erra.

O novo sistema TSPC funciona como uma linha de montagem de duas etapas com um especialista no meio:

Etapa 1: O "Detetive de Sombra" (Speech-to-Phone)

Em vez de tentar adivinhar a palavra escrita imediatamente, o sistema primeiro transforma o som em uma "sombra" ou "esqueleto" de sons básicos, chamados fonemas.

  • O Truque: O Vietnamita é uma língua de tons (como música, onde o tom muda o significado da palavra). O Inglês não tem tons.
  • A Solução: O sistema pega a palavra inglesa (ex: "video") e a transforma em uma "sombra vietnamita" (ex: "vi deo"). Ele ignora a ortografia inglesa e foca apenas no som, adaptando-o para o sistema de tons vietnamita. É como se ele dissesse: "Não importa se você escreve 'video' em inglês, para o meu ouvido vietnamita, isso soa como 'vi deo'".

Etapa 2: O "Arquiteto de Palavras" (Phone-to-Text)

Agora que temos essa sequência de sons adaptados ("vi deo"), a segunda etapa entra em ação. Ela pega esses sons e os transforma em texto correto.

  • O Truque: Como o sistema já sabe que o som foi adaptado para o vietnamita, ele usa regras de "gramática de sons" para montar a frase final. Se o som foi identificado como "vi deo", ele sabe que a palavra correta é "video".
  • A Segurança: Eles usam uma técnica de "máscara" (como um jogo de "complete a frase"). Se o sistema tem dúvida sobre um som, ele tenta adivinhar o contexto para não errar a palavra inteira.

Por que isso é genial?

  1. Ponte entre Mundos: A maior dificuldade é que o Vietnamita e o Inglês têm sons que se parecem muito (como o "s" ou o "t"). O sistema TSPC usa essa semelhança a seu favor, criando um "dicionário de sombras" onde palavras inglesas são mapeadas para sílabas vietnamitas.
  2. Economia de Recursos: A maioria dos sistemas modernos precisa de computadores gigantescos e milhões de dados para funcionar bem. O TSPC foi feito para funcionar com menos dados e menos poder de computador, o que é ótimo para países ou empresas que não têm supercomputadores.
  3. Resultado: O sistema conseguiu reduzir drasticamente os erros. Enquanto os melhores sistemas antigos erravam cerca de 28% das vezes em conversas mistas, o TSPC reduziu esse erro para 19%.

Em resumo

Pense no TSPC como um intérprete muito esperto que, ao ouvir uma mistura de línguas, não tenta adivinhar a palavra final de imediato. Em vez disso:

  1. Ele primeiro identifica os sons básicos e os "traduz" para o dialeto sonoro local (Vietnamita).
  2. Depois, ele monta a frase final baseada nesses sons já adaptados.

Isso evita que o computador confunda um "concert" com um "con sót", tornando a comunicação entre humanos e máquinas muito mais natural e precisa, mesmo quando falamos duas línguas ao mesmo tempo.