WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Este artigo apresenta a solução "WhisperAlign" para o DL Sprint 4.0, que combina uma estratégia de fragmentação de áudio baseada em WhisperX para reconhecimento de fala e um modelo de diarização de fala ajustado especificamente para o dataset da competição, resultando em reduções significativas nas taxas de erro para transcrição e identificação de falantes em longas gravações de áudio em bengali.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem uma conversa de uma hora de duração entre várias pessoas falando em bengali, mas a gravação é um caos: as pessoas se sobrepõem, falam rápido, e há muito silêncio ou barulho de fundo. O objetivo deste trabalho foi ensinar um computador a fazer duas coisas difíceis com essa gravação:

  1. Transcrever o que foi dito (escrever o texto).
  2. Identificar quem falou o quê (separar as vozes).

Os autores, estudantes de engenharia, criaram um sistema chamado WhisperAlign para resolver isso. Vamos usar algumas analogias para entender como eles fizeram isso de forma simples:

1. O Problema do "Sanduíche Grande Demais" (Transcrição)

Imagine que você tenta comer um sanduíche gigante de uma hora de uma só vez. É impossível. Você vai engasgar, perder pedaços e não vai saber o que está comendo.

  • O Erro Comum: A maioria dos sistemas tenta cortar a gravação em pedaços de tempo fixo (ex: 30 segundos). O problema é que, se a palavra "casa" começar aos 29 segundos e terminar aos 31, o sistema corta a palavra ao meio. O computador fica confuso e começa a inventar palavras (alucinações).
  • A Solução Criativa (Corte Inteligente): Os autores não cortaram por tempo, mas por palavras. Eles usaram uma ferramenta que sabe exatamente onde cada palavra começa e termina.
    • A Analogia: Em vez de cortar o sanduíche com uma faca aleatória, eles usaram uma tesoura mágica que só corta exatamente entre uma palavra e outra. Assim, cada pedaço de áudio que o computador analisa contém palavras inteiras e completas. Isso evita que o computador "alucine" e invente frases que não existem.

2. O Detetive de Vozes (Diarização)

Agora imagine que você tem uma sala cheia de gente conversando e precisa saber quem disse o quê. O problema é que, às vezes, duas pessoas falam ao mesmo tempo.

  • O Erro Comum: Sistemas antigos tentam adivinhar quem fala, mas muitas vezes confundem os momentos de silêncio com fala, ou dizem que duas pessoas estão falando ao mesmo tempo quando o sistema exige que apenas uma fale por vez.
  • A Solução Criativa (Treinamento Específico e "Regra de Ouro"):
    • Treinamento Local: Eles pegaram um modelo de inteligência artificial genérico (que foi treinado com vozes de todo o mundo) e deram a ele um "curso intensivo" apenas com vozes bengalis. Foi como ensinar um detetive internacional a entender as gírias e o ritmo específico de uma cidade local.
    • A Regra de Ouro (Sem Sobreposição): O concurso exigia que as vozes não se sobrepusessem (apenas uma pessoa falando por vez). O sistema deles usa uma função especial que, quando duas vozes parecem se cruzar, decide automaticamente: "Ok, a voz mais forte e clara vence, e a outra fica em silêncio". Isso evita confusão.
    • O Cruzamento de Dados (A Interseção): Eles usaram dois sistemas diferentes para detectar silêncio e fala. Um sistema diz "aqui tem voz", o outro diz "aqui tem voz". O sistema final só aceita a voz se ambos os sistemas concordarem. É como ter dois guardas na porta: se um diz que você pode entrar, mas o outro diz que não, você fica de fora. Isso elimina erros onde o computador acha que há fala quando só há barulho de fundo.

3. O Resultado

Ao combinar esses truques:

  • Transcrição: O erro de leitura caiu drasticamente (de 67,5% para 25,2%). O computador aprendeu a ler melhor porque as "fatias" de áudio que ele recebia eram perfeitas.
  • Identificação de Vozes: O erro de identificar quem falou também caiu muito (de 40% para cerca de 24-28%). O sistema aprendeu a dinâmica das conversas em bengali e ignorou os ruídos.

Resumo da Ópera

Pense nisso como a diferença entre tentar ler um livro rasgado e aleatoriamente (método antigo) e ter um livro impresso com margens perfeitas e um tradutor que conhece a cultura local (método deles).

Eles não inventaram uma nova linguagem, mas criaram uma metodologia inteligente para organizar o caos de uma longa conversa, garantindo que o computador nunca perca uma palavra no meio do caminho e que nunca confunde o silêncio com uma voz. Isso é especialmente importante para idiomas como o bengali, onde há menos ferramentas prontas disponíveis do que para o inglês.