Each language version is independently generated for its own context, not a direct translation.
1. O Problema
Os dispositivos auditivos (hearables) atuais, como fones de ouvido inteligentes e aparelhos auditivos, oferecem controles de áudio "rudes" e binários. Os usuários geralmente têm apenas duas opções: ativar a cancelamento de ruído global (silenciar tudo exceto o alvo) ou focar em uma única fonte sonora. No entanto, o mundo real é uma orquestra complexa de sons simultâneos (tráfego, fala, pássaros, alarmes, etc.), onde os usuários podem desejar ajustar independentemente o volume de diferentes fontes (ex.: aumentar a fala, reduzir o tráfego, mas manter o som da natureza).
O estado da arte anterior, como o Semantic Hearing, permite focar em apenas uma classe de som por vez e não suporta controle de volume por classe ou múltiplas fontes simultâneas. Além disso, as soluções existentes muitas vezes dependem de hardware potente (smartphones) e não são otimizadas para a latência e restrições de energia de dispositivos auditivos vestíveis (wearables).
2. Metodologia e Arquitetura do Aurchestra
O Aurchestra é o primeiro sistema a fornecer controle de paisagem sonora granular e em tempo real em dispositivos com recursos limitados. O sistema é composto por três pilares principais:
A. Extração de Som Multi-Saída em Tempo Real
- Objetivo: Separar uma mistura binaural de áudio em várias correntes (streams) independentes, uma para cada classe de som selecionada pelo usuário, permitindo a mistura (mixing) posterior.
- Arquitetura de Rede Neural:
- Utiliza um modelo baseado em domínio tempo-frequência (TF) com uma abordagem de duplo caminho (dual-path).
- Substitui mecanismos de atenção pesados (comuns em modelos de smartphones) por blocos de modelagem TF que processam sequências de frequência e tempo separadamente.
- Codificação Multi-Hot: A rede é condicionada a um vetor multi-hot que indica quais classes de som o usuário deseja ouvir.
- Mapeamento Dinâmico: Em vez de gerar 20 saídas fixas (uma para cada classe treinada), o modelo gera um número menor de correntes de saída (ex.: 5). As classes selecionadas são mapeadas dinamicamente para essas correntes com base na ordem alfabética das classes escolhidas no vetor de entrada. Isso reduz drasticamente a sobrecarga computacional.
- Camadas FiLM (Feature-wise Linear Modulation): Informações de condicionamento são injetadas em todos os blocos da rede para guiar a extração das classes específicas.
- Latência: O sistema processa blocos de áudio de 6 ms com uma latência algorítmica total de 10 ms, garantindo que o usuário não perceba atrasos.
B. Otimização para Hardware Diverso
O sistema foi projetado para rodar em plataformas com capacidades de computação variadas, sem depender de GPUs de smartphone:
- Orange Pi 5B (CPU ARM Cortex-A76): Modelo com 0,5M parâmetros, utilizando LSTMs bidirecionais e convoluções causais.
- Raspberry Pi 4B (CPU ARM Cortex-A72): Versão comprimida com redução de bins de frequência e dimensões latentes menores.
- NeuralAids (Acelerador GAP9 RISC-V): Modelo otimizado para o acelerador de IA de baixa potência, substituindo LSTMs sequenciais por blocos MLP-Mixer altamente paralelizáveis e removendo normalização de camada para melhor eficiência.
- Resultado: Todos os modelos processam os blocos de 6 ms em tempo real (inferência entre 4,47 ms e 5,23 ms) e consomem pouca energia (56 mW no GAP9).
C. Interface Dinâmica e Detecção de Eventos Sonoros (SED)
- Desafio: Interfaces estáticas com listas longas de 20+ categorias são cognitivamente pesadas e lentas.
- Solução: Um modelo de Detecção de Eventos Sonoros (SED) roda no dispositivo parceiro (ex.: smartphone) para identificar quais classes de som estão ativas no ambiente.
- Modelo SED: Baseado no Audio Spectrogram Transformer (AST), mas fine-tuned (ajustado) especificamente para cenários com sobreposição densa de sons e janelas curtas.
- Interface: A aplicação exibe apenas as classes de som detectadas ativamente, permitindo que o usuário selecione e ajuste o volume de cada uma individualmente.
- Estratégia de Latência: Utiliza um buffering escalonado (pipelining) para que a interface responda rapidamente, mesmo que o modelo de SED analise segmentos de 3-5 segundos para alta precisão.
3. Principais Contribuições Técnicas
- Primeiro Sistema Multi-Saída em Hearables: Capacidade de extrair até 5 fontes de som simultâneas em tempo real em dispositivos de baixa potência.
- Arquitetura Eficiente: Substituição de mecanismos de atenção por modelos dual-path e uso de mapeamento dinâmico de correntes para reduzir parâmetros e latência.
- Otimização Hardware-Aware: Desenvolvimento de variantes de modelos específicos para CPU (Orange Pi, Raspberry Pi) e aceleradores de IA (GAP9), mantendo a qualidade de áudio.
- Interface Adaptativa: Um sistema que descobre automaticamente o ambiente e apresenta apenas as opções relevantes, reduzindo a carga cognitiva do usuário.
4. Resultados e Avaliação
Desempenho de Extração de Som
- Qualidade de Sinal: O modelo Aurchestra (Orange Pi) alcançou um SNRi (Signal-to-Noise Ratio improvement) de 11,99 dB e SI-SNRi de 11,27 dB para uma única fonte, superando o baseline Waveformer (7,29 dB) com menos da metade dos parâmetros (0,5M vs 1,2M).
- Multi-fonte: O sistema mantém desempenho estável ao extrair até 5 fontes simultâneas. A performance degrada significativamente apenas quando se tenta extrair 20 fontes ao mesmo tempo (o que confirma a estratégia de limitar o número de correntes de saída).
- Robustez: Funciona bem em misturas complexas com ruído de fundo urbano.
Desempenho de Detecção (SED)
- O modelo AST fine-tuned alcançou 93,2% de precisão na detecção de 5 fontes sonoras simultâneas, superando o YAMNet (63,8%) e o AST base (81,5%).
- Mantém alta precisão e recall mesmo com janelas de áudio curtas e sobreposição prolongada de sons.
Avaliação "In-The-Wild" (Mundo Real)
- Estudo com Usuários (N=17): Participantes usaram os fones em ambientes internos e externos não vistos durante o treinamento.
- Melhoria na Supressão de Ruído: +1,54 pontos na escala MOS (Mean Opinion Score).
- Experiência de Escuta Geral: +0,95 pontos.
- Clareza do Alvo: Mantida sem distorções perceptíveis.
- Estudo de Interface (N=7): A interface dinâmica reduziu o tempo de seleção de sons em 67,9% comparado a uma interface estática com lista completa, demonstrando maior usabilidade.
5. Significado e Impacto
O Aurchestra representa um avanço fundamental na tecnologia de audição aumentada, transformando os dispositivos de meros filtros de ruído para estúdios de mixagem pessoais programáveis.
- Personalização: Permite que os usuários esculpiam ativamente seu ambiente auditivo, escolhendo o que ouvir e o que ignorar em tempo real.
- Viabilidade em Hardware Limitado: Demonstra que tarefas complexas de separação de fontes e processamento de áudio semântico podem ser executadas em dispositivos vestíveis de baixo custo e baixa potência, não apenas em servidores ou smartphones.
- Futuro: Abre caminho para assistentes de audição que não apenas isolam a fala, mas entendem e gerenciam toda a paisagem sonora, adaptando-se dinamicamente ao contexto do usuário (trânsito, escritório, parques).
Em resumo, o trabalho prova que o mundo não precisa ser ouvido como um fluxo indistinto; com o Aurchestra, a paisagem sonora torna-se verdadeiramente programável.