eess.AS artigos | Gist.Science

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

O artigo apresenta o RA-QA, um novo sistema de benchmarking que harmoniza dados públicos em 9 milhões de pares de perguntas e respostas multimodais para avaliar a robustez de modelos de IA na análise de áudio respiratório sob condições de heterogeneidade do mundo real.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

O artigo apresenta o Aurchestra, o primeiro sistema capaz de oferecer controle sonoro granular e em tempo real em dispositivos auditivos com recursos limitados, permitindo que os usuários ajustem independentemente os volumes de até cinco fontes sonoras simultâneas por meio de uma interface dinâmica e uma rede de extração multi-saída otimizada.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

O artigo apresenta o VoxKnesset, um novo conjunto de dados aberto e longitudinal com cerca de 2.300 horas de discurso parlamentar em hebraico (2009-2025) de 393 falantes, destinado a avaliar e melhorar a modelagem de sistemas de processamento de fala para o envelhecimento vocal.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge

O artigo descreve o desafio DISPLACE-M, um benchmark para sistemas de conversação em saúde que apresenta um conjunto de dados médico com diálogos reais entre trabalhadores de saúde e pacientes, além de estabelecer linhas de base e métricas de avaliação para tarefas como diarização de falantes, reconhecimento de fala, identificação de tópicos e sumarização de diálogos.

Dhanya E, Ankita Meena, Manas Nanivadekar + 11 more2026-03-06⚡ eess

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Este artigo apresenta o Corpus PARLO de Demência, o primeiro recurso público e validado clinicamente em alemão, composto por gravações de fala e metadados detalhados de pacientes com doença de Alzheimer e controles saudáveis, visando facilitar a detecção não invasiva e escalável de comprometimento cognitivo por meio de análise de fala.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artigo apresenta uma avaliação sistemática de estratégias de agrupamento temporal para detecção de sons anômalos sem treinamento, propondo o agrupamento por desvio relativo (RDP) e uma estratégia híbrida que superam consistentemente o agrupamento por média e alcançam o estado da arte em cinco conjuntos de dados de referência.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Este artigo apresenta a primeira aquisição simultânea de vídeo de ressonância magnética em tempo real, EEG e EMG de superfície para capturar movimentos articulares, atividade muscular e sinais cerebrais durante a produção da fala, introduzindo um pipeline de supressão de artefatos para superar os desafios técnicos dessa abordagem multimodal.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

Este trabalho propõe um conjunto compacto de parâmetros acústicos interpretáveis e livres de treinamento para a detecção de atributos de timbre vocal, demonstrando desempenho competitivo em relação a modelos supervisionados e auto-supervisionados complexos, ao mesmo tempo que oferece eficiência computacional e clareza sobre as características físicas da percepção humana.

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Este trabalho apresenta o PolyBench, um novo benchmark projetado para avaliar o raciocínio composicional em áudio polifônico, revelando que os atuais Modelos de Linguagem de Áudio (LALMs) sofrem degradação consistente de desempenho ao lidar com múltiplos eventos sonoros simultâneos.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

BabAR: from phoneme recognition to developmental measures of young children's speech production

O artigo apresenta o BabAR, um sistema de reconhecimento fonético multilíngue para fala infantil treinado no corpus TinyVox, que demonstra alta eficácia na análise do desenvolvimento da fala de crianças ao alinhar medidas automáticas de maturidade com estimativas científicas.

Marvin Lavechin, Elika Bergelson, Roger Levy2026-03-06⚡ eess

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

O artigo propõe a rede neural de formação de feixe informada visualmente (VI-NBFNet), que integra processamento de sinais de microfone em array e redes neurais profundas utilizando movimentos labiais extraídos de modelos de reconhecimento visual para melhorar a robustez e o desempenho do aprimoramento de fala em cenários complexos e com ruído.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Este estudo avalia 11 algoritmos de fusão de modelos para adaptação multido-mínio em reconhecimento automático de fala (ASR) em português europeu, propondo o novo método BoostedTSV-M que supera o ajuste fino completo em precisão e estabilidade numérica enquanto preserva a generalização.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

O artigo apresenta o MSpoof-TTS, um framework de inferência sem treinamento que aprimora a síntese de fala baseada em codecs discretos através de uma estratégia de decodificação hierárquica guiada por detecção de falsificação em múltiplas resoluções, eliminando a necessidade de reotimização ou ajuste de parâmetros do modelo.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Este artigo propõe uma arquitetura de rede neural com saída antecipada e um framework probabilístico de incerteza para separação e aprimoramento de fala, permitindo a economia dinâmica de recursos computacionais em dispositivos heterogêneos sem comprometer a qualidade da reconstrução do sinal.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Este artigo apresenta o LadderSym, um novo método baseado em Transformer que utiliza um codificador de dois fluxos com alinhamento interfluxo e uma estratégia multimodal com prompts simbólicos para detectar erros na prática musical com desempenho superior ao estado da arte.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

O artigo apresenta o SemKey, um novo framework que supera as limitações atuais na decodificação de EEG para texto ao alinhar a geração com os sinais neurais através de objetivos semânticos desacoplados e prompts estruturados, eliminando alucinações e oferecendo métricas de avaliação mais robustas que o BLEU.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

O estudo apresenta o SMMA, um quadro automatizado baseado em deep learning que mede com precisão a espessura do músculo geniohioide durante a fala, permitindo a análise em larga escala da dinâmica muscular e a distinção de padrões de ativação entre vogais e diferenças sexuais.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

O artigo apresenta o ACES, uma auditoria centrada em representações que identifica subespaços de baixo dimensão onde as informações de sotaque se concentram e se entrelaçam com características críticas para o reconhecimento, demonstrando que a simples eliminação desses subespaços não reduz disparidades e que eles são mais eficazes como ferramentas de diagnóstico do que como alavancas diretas para equidade.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este relatório técnico apresenta o sistema da equipe CP-JKU para o Desafio ICASSP 2025 de Restauração de Fontes Musicais, que combina um separador BandSplit-RoFormer treinado com currículo de três estágios para isolar oito stems e um restaurador HiFi++ GAN especializado por instrumento para recuperar a qualidade do áudio original.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

← Anterior Próximo →