Speak in Context: Multilingual ASR with Speech Context Alignment via Contrastive Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando entender uma conversa em um idioma que você não domina perfeitamente, talvez com sotaques fortes ou palavras muito específicas. Se alguém te der apenas o áudio, você pode se perder. Mas, se essa pessoa te disser: "Ei, antes de ouvir isso, lembre-se que estávamos falando sobre comida e que o nome do restaurante é Bella Italia", a conversa faz muito mais sentido, certo?

É exatamente isso que os pesquisadores da Universidade de Essex fizeram com a tecnologia de reconhecimento de voz. Eles criaram um sistema que não apenas "ouve", mas também "lembra" e "prepara o terreno" antes de transcrever o que foi dito.

Aqui está a explicação do trabalho deles, usando analogias do dia a dia:

1. O Problema: O Tradutor "Amnésico"

A maioria dos sistemas de reconhecimento de voz atuais são como tradutores que têm amnésia de curto prazo. Eles ouvem uma frase, tentam traduzir e esquecem o que foi dito 5 segundos atrás.

O desafio: Se você falar em um sotaque estranho ou usar uma palavra rara (como um nome de um medicamento ou um lugar específico), o sistema erra.
O que faltava: Sistemas que entendem vários idiomas ao mesmo tempo e que conseguem usar o contexto (o que foi dito antes ou uma lista de palavras importantes) para ajudar na tradução.

2. A Solução: O "Detetive com Caderno de Anotações"

Os autores criaram um sistema chamado SpeechLLM (um modelo de linguagem para fala). Eles não quiseram reconstruir o cérebro do tradutor do zero (o que seria caro e lento). Em vez disso, eles pegaram dois gigantes já existentes e congelados:

O Ouvido (Encoder de Fala): Um modelo superpoderoso que já sabe ouvir e entender sons em muitos idiomas.
O Cérebro (LLM - Modelo de Linguagem): Um modelo de texto (como um Chatbot) que já sabe escrever e entender gramática em vários idiomas.

O segredo foi criar um "tradutor de mão" (um módulo leve) que conecta o Ouvido ao Cérebro.

3. As Duas Ferramentas Mágicas (O Contexto)

Para ajudar o "Cérebro" a entender melhor, o sistema recebe duas dicas antes de começar a transcrever:

A História da Conversa (Diálogo): Imagine que você está em uma reunião. O sistema recebe um resumo do que foi dito nos minutos anteriores. Isso ajuda a resolver mistérios como: "Ele disse 'ele'... quem é 'ele'? Ah, a gente estava falando do João há 10 minutos!"
A Lista de Palavras-Chave (Biasing): Imagine que você vai ao médico. O sistema recebe uma lista de palavras prováveis: "antibiótico", "alergia", "dose". Isso ajuda o sistema a não confundir "antibiótico" com "antibiotico" ou outra palavra parecida.

4. O Grande Truque: A "Dança do Casamento" (Aprendizado Contrastivo)

Aqui está a parte mais inovadora do papel. Normalmente, o sistema apenas joga o áudio e o texto juntos. Mas os autores queriam garantir que o significado do som e o significado do texto de contexto estivessem perfeitamente alinhados.

Eles usaram uma técnica chamada Aprendizado Contrastivo.

A analogia: Pense em um baile de máscaras. O objetivo é fazer com que o "casal" perfeito (o áudio correto + o contexto correto) se encontre e dance muito perto um do outro. Ao mesmo tempo, o sistema deve empurrar os "casais errados" (o áudio de uma pessoa + o contexto de outra) para longe, para que eles não se confundam.
O resultado: O sistema aprende a "sentir" que aquele áudio específico pertence àquela lista de palavras ou àquela história anterior. Isso cria uma conexão mais forte e precisa.

5. O Resultado: O Show de Palavras

Eles testaram isso em mais de 1.500 horas de conversas reais em 11 idiomas diferentes (incluindo inglês com vários sotaques, francês, alemão, japonês, coreano, etc.).

O que aconteceu? O sistema com "dicas" (contexto) errou muito menos do que o sistema sem dicas.
A mágica da dança: Quando eles usaram a técnica de "dança do casamento" (aprendizado contrastivo), a precisão melhorou ainda mais, especialmente quando usavam a história da conversa.
A lição: Às vezes, jogar tudo junto (história + lista de palavras) não é o ideal. Às vezes, focar em uma coisa de cada vez (como a história) funciona melhor, porque o sistema não fica confuso com informações demais.

Resumo Final

Imagine que você está tentando adivinhar uma palavra em um jogo de "Stop" (Adedonha).

Sem contexto: Você vê apenas a letra "P" e chuta "Pato".
Com contexto: Alguém te diz "O tema é 'Cidades'". Agora você chuta "Paris".
Com o método deles: O sistema não só recebe a dica "Cidades", mas também aprendeu, através de um treino especial, que a letra "P" sempre combina com "Paris" nesse jogo específico, ignorando "Pato".

Conclusão: Os pesquisadores mostraram que, para fazer um tradutor de voz inteligente e multilíngue, não basta apenas ouvir bem. É preciso ensinar o sistema a ouvir com atenção ao que foi dito antes e a focar no que é importante, criando uma conexão profunda entre o som e o significado.

Each language version is independently generated for its own context, not a direct translation.

Título: Speak in Context: ASR Multilíngue com Alinhamento de Fala e Contexto via Aprendizado Contrastivo

1. Problema e Motivação

Os sistemas de Reconhecimento Automático de Fala (ASR) avançaram significativamente com modelos pré-treinados, mas ainda enfrentam desafios críticos em cenários do mundo real:

Limitação Multilíngue: A maioria dos sistemas é restrita a configurações monolíngues ou não suporta bem a diversidade de idiomas e sotaques simultaneamente.
Falta de Contexto Estruturado: Embora existam esforços em ASR consciente de contexto, eles frequentemente carecem de suporte multilíngue robusto e de um mecanismo principiado para alinhar as representações de fala com as representações contextuais.
Alinhamento Heurístico: Trabalhos anteriores frequentemente tratam o contexto (histórico de diálogo, palavras de viés) apenas como concatenação de texto, sem explorar um alinhamento explícito no espaço de embeddings entre a modalidade acústica e a contextual.

O objetivo deste trabalho é preencher essas lacunas propondo um framework de ASR multilíngue que integra informações contextuais (histórico de diálogo e palavras de viés) e utiliza aprendizado contrastivo para alinhar semanticamente a fala e o contexto.

2. Metodologia

O sistema proposto é um framework SpeechLLM (Modelo de Linguagem de Fala) que mantém a modularidade dos modelos pré-treinados, utilizando componentes congelados e módulos leves para adaptação.

Arquitetura Geral

O modelo integra três componentes principais:

Codificador de Fala Congelado: Utiliza o Whisper-large-v3 Turbo para extrair embeddings acústicos.
Modelo de Linguagem (LLM) Congelado: Utiliza o EuroLLM-1.7B-Instruct (decoder-only) para gerar a transcrição.
Módulo de Projeção Leve: Um "conector" treinável que mapeia os embeddings de fala para o espaço de embeddings do LLM.

Fluxo de Processamento

Extração de Contexto:
- Histórico de Diálogo: As transcrições das falas anteriores no mesmo diálogo são formatadas como um prompt natural (ex: "As turnos anteriores foram...").
- Palavras de Viés (Biasing Words): Incluem "Hotwords" (n-gramas extraídos da transcrição) e "Termos Distratores" (palavras raras de um léxico específico). Isso ajuda a reconhecer entidades raras ou termos de domínio.
Projeção e Alinhamento (Speech Connector):
- Os embeddings brutos de fala são subamostrados e transformados por duas camadas lineares com ativação GELU para alinhar com a dimensão do LLM.
Objetivo de Aprendizado Contrastivo:
- Para melhorar a interação entre fala e contexto, o artigo introduz uma função de perda contrastiva (InfoNCE).
- O objetivo é aproximar os embeddings de fala e seu contexto correspondente no espaço compartilhado, enquanto afasta pares incompatíveis (fala de uma amostra com contexto de outra).
- Isso força o modelo a aprender representações semanticamente fundamentadas, onde a fala e o contexto estão alinhados.

Função de Perda Total

A otimização combina a Perda de Entropia Cruzada (CE) para a transcrição e a Perda Contrastiva (CL):
$L = \beta \cdot L_{CE} + \alpha \cdot L_{CL}$
Onde $\alpha$ é ajustado dinamicamente para equilibrar os dois objetivos durante o treinamento.

3. Principais Contribuições

Framework Contextual Multilíngue: Introdução de um sistema ASR que suporta 11 idiomas e 5 sotaques ingleses, integrando dinamicamente histórico de diálogo e palavras de viés sem modificar os backbones pré-treinados.
Alinhamento por Aprendizado Contrastivo: Proposta de uma estratégia de alinhamento em nível de embedding que conecta explicitamente características de fala com informações contextuais, superando a simples concatenação de prompts.
Avaliação Abrangente: Experimentos extensivos em um dataset real de 1.500 horas (MLC-SLM), demonstrando ganhos consistentes e fornecendo insights sobre como diferentes tipos de contexto interagem com o aprendizado contrastivo em cenários multilíngues.

4. Resultados Experimentais

Os experimentos foram conduzidos no dataset MLC-SLM (Interspeech 2025), contendo 1.507 horas de treinamento, 32h de validação e 32h de teste em 11 idiomas.

Impacto do Contexto: A introdução de contexto (histórico + palavras de viés) reduziu consistentemente a Taxa de Erro de Palavras (WER) e Taxa de Erro de Caracteres (CER).
- A taxa de erro média caiu de 21,03% (sem contexto) para 16,08% (com contexto).
Efeito do Aprendizado Contrastivo:
- O alinhamento contrastivo trouxe ganhos adicionais em todos os cenários.
- A melhor configuração foi Histórico de Diálogo + Aprendizado Contrastivo, alcançando uma taxa de erro média de 15,42% (uma melhoria de ~1,16% sobre o uso de histórico sem contraste).
- Ganhos significativos foram observados em idiomas como Alemão, Coreano e Português.
Análise por Idioma:
- Inglês (Dialectos): Melhorias consistentes, especialmente no Inglês Britânico com histórico + contraste.
- Idiomas Não Vistos no Pré-treinamento (Tailandês, Vietnamita): O Vietnamita mostrou ganhos massivos (redução de ~50% no erro), indicando que o alinhamento contextual ajuda na generalização para idiomas não vistos pelo LLM. O Tailandês apresentou variabilidade, sugerindo desafios com termos ruidosos.
- Combinação de Contextos: Curiosamente, combinar todos os tipos de contexto (histórico + viés) com aprendizado contrastivo às vezes resultou em desempenho inferior ao uso de apenas histórico com contraste, sugerindo que sinais heterogêneos podem criar interferência no objetivo de alinhamento único.

5. Significado e Conclusão

O trabalho demonstra que:

Contexto é Vital: A modelagem contextual é essencial para melhorar a qualidade da transcrição em ASR multilíngue, especialmente para resolver ambiguidades e reconhecer termos raros.
Alinhamento Principiado: O aprendizado contrastivo é uma ferramenta poderosa para alinhar modalidades (fala e texto/contexto), superando métodos heurísticos de concatenação.
Desafios de Integração: A interação entre diferentes tipos de contexto (semântico vs. léxico) requer cuidado; um único objetivo de alinhamento pode não ser ideal para todos os tipos de contexto simultaneamente, sugerindo a necessidade de estratégias de otimização mais adaptativas ou desacopladas no futuro.

Em suma, o artigo estabelece um novo estado da arte para ASR multilíngue consciente de contexto, provando que a integração modular de modelos de fala e linguagem, reforçada por alinhamento contrastivo, é uma via promissora para sistemas de reconhecimento mais robustos e precisos.