eess.AS artigos | Gist.Science

ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance

O artigo apresenta o ImKWS, um método de adaptação em tempo de teste para detecção de palavras-chave que supera o desequilíbrio de classes entre comandos raros e ruído de fundo, utilizando uma abordagem de ramificação de entropia e consistência em transformações para garantir atualizações estáveis do modelo.

Hanyu Ding, Yang Xiao, Jiaheng Dong, Ting DangMon, 09 Ma⚡ eess

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

O artigo apresenta o JHCodec, um codec neural de áudio que utiliza uma perda de reconstrução de representação auto-supervisionada (SSRR) para alcançar estado da arte em inteligibilidade e baixa latência, permitindo uma arquitetura de streaming sem atraso (zero-lookahead) e treinamento eficiente em uma única GPU.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Activation Steering for Accent-Neutralized Zero-Shot Text-To-Speech

Este artigo apresenta uma abordagem pós-processamento e sem treinamento que utiliza o direcionamento de ativação durante a inferência para neutralizar sotaques em modelos de síntese de fala zero-shot, preservando simultaneamente a identidade vocal do falante original.

Mu Yang, John H. L. HansenMon, 09 Ma⚡ eess

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

O artigo apresenta o StreamVoiceAnon+, uma abordagem de anonimização de fala em streaming que preserva a emoção através de ajuste fino supervisionado e destilação de nível de quadro, alcançando melhorias significativas na preservação emocional sem adicionar latência à inferência.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

O artigo apresenta o Whisper-CD, um framework de decodificação contrastiva sem treinamento que utiliza perturbações acústicas para reduzir alucinações e melhorar a precisão e a velocidade na transcrição de fala longa com o modelo Whisper.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudo empírico investiga estratégias de adaptação de modelos de fala para línguas indígenas do Pacífico, demonstrando que, embora a adaptação de baixo rank (LoRA) funcione inicialmente, ela sofre de esquecimento catastrófico durante a aprendizagem sequencial devido à escassez de dados e ao desvio representacional, destacando a necessidade urgente de métodos robustos para essas línguas sub-representadas.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Este estudo apresenta uma análise cross-linguística da fala de crianças autistas e não autistas em finlandês, francês e eslovaco, demonstrando que, embora existam marcadores acústicos parcialmente compartilhados, a classificação eficaz requer modelagem específica para cada língua devido à heterogeneidade dos resultados entre os idiomas.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Este estudo analisa um corpus multilíngue de finlandês, francês e eslovaco e revela que crianças autistas apresentam um perfil prosódico distintivo e complexo, caracterizado por maior variabilidade de intensidade, voz menos ofegante e menor dinâmica temporal, sugerindo marcadores independentes da língua que desafiam modelos baseados em déficits.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Este artigo apresenta um sistema robusto e de código aberto que combina diarização neural (EEND-VC) e reconhecimento de fala adaptado (Qwen3) para extrair condições médicas de diálogos clínicos em Hinglish com fala sobreposta, alcançando o primeiro lugar no desafio DISPLACE-M.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Este artigo propõe uma abordagem de inteligência artificial informada pela comunidade, desenvolvida por uma equipe multidisciplinar com foco em cientistas sociais, para criar ferramentas que analisem vídeos de câmeras corporais da polícia e integrem as perspectivas de diversos grupos na busca por transparência e responsabilidade governamental.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Este artigo apresenta a primeira revisão sistemática dos Modelos de Áudio-Linguagem (ALMs), oferecendo uma cobertura abrangente de suas arquiteturas, objetivos de treinamento e aplicações em fala, música e sons, além de estabelecer um panorama de pesquisa para orientar o desenvolvimento futuro e a implementação prática dessas tecnologias.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Este artigo apresenta um método leve de adaptação apenas com texto para sistemas de reconhecimento automático de fala baseados em grandes modelos de linguagem, que formula o processo como uma tarefa de remoção de ruído de texto para adaptar o modelo a novos domínios sem quebrar o alinhamento entre as modalidades de fala e texto, alcançando melhorias significativas em relação aos métodos existentes.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Este artigo demonstra que modelos de fala auto-supervisionados codificam informações fonéticas através de vetores composicionais e interpretáveis que permitem realizar aritmética vetorial fonológica, onde operações lineares como adição e escalonamento capturam com precisão a realização acústica contínua de características como a sonoridade.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

O artigo apresenta o V2A-DPO, um novo framework de Otimização Direta de Preferências (DPO) adaptado para modelos de geração de áudio a partir de vídeo baseados em fluxo, que integra um sistema de pontuação de preferência humana (AudioScore), um pipeline automatizado para geração de dados de preferência e uma estratégia de aprendizado de currículo, resultando em desempenho superior e estado da arte em benchmarks como o VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Este artigo investiga o uso de um modelo de linguagem treinado em fala para localizar palavras falsas em discursos parcialmente editados, descobrindo que o modelo depende excessivamente de padrões de edição específicos do conjunto de dados, o que levanta desafios para a generalização em cenários não vistos.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

O artigo propõe o uso de um modelo pré-treinado XLS-R, otimizado com apenas suas três primeiras camadas para eficiência computacional, que supera outras arquiteturas na detecção automática de segmentos de tosse em gravações de pacientes com suspeita de tuberculose, viabilizando assim ferramentas de triagem escaláveis para dispositivos móveis.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Os autores propõem uma técnica de decodificação especulativa que utiliza um codificador CTC como modelo de rascunho para acelerar a inferência e melhorar a precisão de sistemas de reconhecimento automático de fala baseados em LLMs, alcançando simultaneamente uma redução na taxa de erro de palavras e um aumento significativo na velocidade de processamento.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

O artigo apresenta o Fair-Gate, um framework interpretável de controle de risco que aborda o aprendizado de atalhos demográficos e o emaranhamento de características para reduzir as disparidades de desempenho relacionadas ao sexo em sistemas de biometria vocal, melhorando o equilíbrio entre utilidade e justiça.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artigo demonstra que o uso de pré-treinamento contínuo com dados não rotulados e pseudo-rótulos para adaptar o modelo wav2vec2-bert-2.0 permite alcançar um desempenho state-of-the-art em reconhecimento de fala em swahili, reduzindo a taxa de erro de palavras em 82% com apenas 20.000 amostras rotuladas.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

O artigo apresenta o AnimeScore, um framework baseado em preferências que utiliza classificações em pares e modelos de aprendizado auto-supervisionado para avaliar objetivamente o estilo de voz "anime", superando as limitações das métricas tradicionais e fornecendo um sinal de recompensa para a otimização de modelos de fala generativa.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

← Anterior Próximo →