cs.SD artigos | Gist.Science

Wave-like behaviour in (0,1) binary sequences

Este trabalho apresenta um estudo abrangente das propriedades de sistemas binários (0,1) finitos sob uma perspectiva de teoria quântica, estendendo o modelo GenomeBits para caracterizar sequências genômicas através de uma função de onda complexa que revela características de ondas sonoras.

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Este estudo demonstra que, em pacientes com câncer de cabeça e pescoço, medidas objetivas de inteligibilidade e velocidade da fala correspondem às avaliações subjetivas, sugerindo que uma única medida de inteligibilidade pode ser suficiente para o monitoramento clínico desses pacientes.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudo realiza uma análise de sondagem em larga escala de 11 modelos de aprendizado auto-supervisionado de fala, revelando que as camadas finais de modelos maiores recuperam inesperadamente a identidade do falante e que as representações intermediárias capturam a prosódia dinâmica melhor do que embeddings especializados, desafiando a visão de que as camadas finais contêm apenas conteúdo linguístico abstrato.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

O InterActHuman é um novo framework que supera as limitações dos métodos existentes ao permitir a animação de vídeo de alta qualidade com múltiplos conceitos e interações humanas, garantindo o controle preciso de cada identidade através do alinhamento espacial e temporal de condições multimodais, como áudio e imagens de referência, a regiões específicas do vídeo.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

O artigo apresenta o Vevo2, um framework unificado e controlável para geração de voz falada e cantada que supera desafios como a escassez de dados anotados e permite controle flexível de prosódia, estilo e timbre por meio de dois tokenizadores de áudio inovadores e estratégias de aprendizado conjuntas.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artigo propõe a arquitetura TSPC, um modelo de reconhecimento de fala de código alternado vietnamita-inglês baseado em fonemas que, através de uma abordagem de duas etapas, supera os métodos existentes com menor taxa de erro de palavras e menor consumo de recursos computacionais.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

O artigo apresenta o BabyHuBERT, um modelo de aprendizado auto-supervisionado multilíngue treinado em 13.000 horas de gravações infantis que supera os modelos existentes na segmentação de falantes em gravações longas e naturais de crianças, demonstrando eficácia particular em línguas sub-representadas.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

O artigo apresenta o SAM, um modelo de linguagem de áudio baseado em Mamba-2 que, ao integrar um codificador de áudio com um backbone SSM, alcança desempenho superior ou equivalente a modelos transformadores maiores com menos parâmetros, estabelecendo princípios práticos de design que destacam a importância do ajuste fino conjunto, de representações de tokens compactas e da supervisão para seguir instruções.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabalho apresenta o Noise-to-Notes (N2N), um novo quadro de trabalho baseado em modelos de difusão que redefine a transcrição automática de bateria como uma tarefa generativa condicional, utilizando uma perda Pseudo-Huber anelada e recursos de modelos fundamentais de música para alcançar desempenho superior e maior robustez em benchmarks existentes.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

O artigo apresenta o Schrödinger Bridge Mamba (SBM), um modelo inovador que combina o paradigma de Ponte de Schrödinger com a arquitetura Mamba para realizar aprimoramento de fala de alta qualidade em uma única etapa de inferência, superando métodos existentes em tarefas de remoção de ruído e reverberação com eficiência em tempo real.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Este artigo propõe um framework de aprendizado multi-perda que integra mixup adaptativo à energia e atenção em nível de quadro para superar desafios como complexidade emocional e dados escassos, alcançando desempenho de ponta em quatro conjuntos de dados de reconhecimento de emoções na fala.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Este artigo apresenta o conjunto de dados MultiAPI Spoof, que inclui 230 horas de fala sintética gerada por 30 APIs distintas para preencher a lacuna entre benchmarks existentes e cenários reais, juntamente com a rede Nes2Net-LA, que alcança desempenho superior na detecção de falsificação e na atribuição da fonte de áudio sintético.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

O artigo apresenta o RA-QA, um novo sistema de benchmarking que harmoniza dados públicos em 9 milhões de pares de perguntas e respostas multimodais para avaliar a robustez de modelos de IA na análise de áudio respiratório sob condições de heterogeneidade do mundo real.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

O artigo apresenta o Aurchestra, o primeiro sistema capaz de oferecer controle sonoro granular e em tempo real em dispositivos auditivos com recursos limitados, permitindo que os usuários ajustem independentemente os volumes de até cinco fontes sonoras simultâneas por meio de uma interface dinâmica e uma rede de extração multi-saída otimizada.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

O artigo apresenta o VoxKnesset, um novo conjunto de dados aberto e longitudinal com cerca de 2.300 horas de discurso parlamentar em hebraico (2009-2025) de 393 falantes, destinado a avaliar e melhorar a modelagem de sistemas de processamento de fala para o envelhecimento vocal.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artigo apresenta uma avaliação sistemática de estratégias de agrupamento temporal para detecção de sons anômalos sem treinamento, propondo o agrupamento por desvio relativo (RDP) e uma estratégia híbrida que superam consistentemente o agrupamento por média e alcançam o estado da arte em cinco conjuntos de dados de referência.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

Este estudo demonstra que o uso do modelo de aprimoramento de fala SAM-Audio como etapa de pré-processamento para sistemas de reconhecimento de fala zero-shot (Whisper) degrada consistentemente a precisão da transcrição, revelando que a melhoria na qualidade perceptual do áudio não se traduz necessariamente em ganhos de reconhecimento para máquinas.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Este artigo apresenta a solução "WhisperAlign" para o DL Sprint 4.0, que combina uma estratégia de fragmentação de áudio baseada em WhisperX para reconhecimento de fala e um modelo de diarização de fala ajustado especificamente para o dataset da competição, resultando em reduções significativas nas taxas de erro para transcrição e identificação de falantes em longas gravações de áudio em bengali.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

O artigo propõe o "Focus-Then-Listen" (FTL), um aprimorador de áudio plug-and-play que melhora a robustez a ruídos de Grandes Modelos de Linguagem de Áudio ao separar a entrada em fala e não-fala e fundi-las de forma adaptativa à tarefa, eliminando a necessidade de retreinamento caro.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

Este artigo apresenta o primeiro Desafio de Detecção de Deepfakes de Sons Ambientais, detalhando sua formulação, construção de conjunto de dados, protocolos de avaliação e os principais resultados e direções futuras obtidos a partir da análise de 1.748 submissões de 97 equipes.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← Anterior Próximo →