Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

O artigo apresenta o JHCodec, um codec neural de áudio que utiliza uma perda de reconstrução de representação auto-supervisionada (SSRR) para alcançar estado da arte em inteligibilidade e baixa latência, permitindo uma arquitetura de streaming sem atraso (zero-lookahead) e treinamento eficiente em uma única GPU.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudo empírico investiga estratégias de adaptação de modelos de fala para línguas indígenas do Pacífico, demonstrando que, embora a adaptação de baixo rank (LoRA) funcione inicialmente, ela sofre de esquecimento catastrófico durante a aprendizagem sequencial devido à escassez de dados e ao desvio representacional, destacando a necessidade urgente de métodos robustos para essas línguas sub-representadas.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

Este estudo apresenta uma análise cross-linguística da fala de crianças autistas e não autistas em finlandês, francês e eslovaco, demonstrando que, embora existam marcadores acústicos parcialmente compartilhados, a classificação eficaz requer modelagem específica para cada língua devido à heterogeneidade dos resultados entre os idiomas.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

Este estudo analisa um corpus multilíngue de finlandês, francês e eslovaco e revela que crianças autistas apresentam um perfil prosódico distintivo e complexo, caracterizado por maior variabilidade de intensidade, voz menos ofegante e menor dinâmica temporal, sugerindo marcadores independentes da língua que desafiam modelos baseados em déficits.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

Este artigo apresenta um sistema robusto e de código aberto que combina diarização neural (EEND-VC) e reconhecimento de fala adaptado (Qwen3) para extrair condições médicas de diálogos clínicos em Hinglish com fala sobreposta, alcançando o primeiro lugar no desafio DISPLACE-M.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

Este artigo propõe uma abordagem de inteligência artificial informada pela comunidade, desenvolvida por uma equipe multidisciplinar com foco em cientistas sociais, para criar ferramentas que analisem vídeos de câmeras corporais da polícia e integrem as perspectivas de diversos grupos na busca por transparência e responsabilidade governamental.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

Este artigo apresenta um método leve de adaptação apenas com texto para sistemas de reconhecimento automático de fala baseados em grandes modelos de linguagem, que formula o processo como uma tarefa de remoção de ruído de texto para adaptar o modelo a novos domínios sem quebrar o alinhamento entre as modalidades de fala e texto, alcançando melhorias significativas em relação aos métodos existentes.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Este artigo demonstra que modelos de fala auto-supervisionados codificam informações fonéticas através de vetores composicionais e interpretáveis que permitem realizar aritmética vetorial fonológica, onde operações lineares como adição e escalonamento capturam com precisão a realização acústica contínua de características como a sonoridade.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

O artigo apresenta o V2A-DPO, um novo framework de Otimização Direta de Preferências (DPO) adaptado para modelos de geração de áudio a partir de vídeo baseados em fluxo, que integra um sistema de pontuação de preferência humana (AudioScore), um pipeline automatizado para geração de dados de preferência e uma estratégia de aprendizado de currículo, resultando em desempenho superior e estado da arte em benchmarks como o VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Este artigo investiga o uso de um modelo de linguagem treinado em fala para localizar palavras falsas em discursos parcialmente editados, descobrindo que o modelo depende excessivamente de padrões de edição específicos do conjunto de dados, o que levanta desafios para a generalização em cenários não vistos.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

O artigo propõe o uso de um modelo pré-treinado XLS-R, otimizado com apenas suas três primeiras camadas para eficiência computacional, que supera outras arquiteturas na detecção automática de segmentos de tosse em gravações de pacientes com suspeita de tuberculose, viabilizando assim ferramentas de triagem escaláveis para dispositivos móveis.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

Os autores propõem uma técnica de decodificação especulativa que utiliza um codificador CTC como modelo de rascunho para acelerar a inferência e melhorar a precisão de sistemas de reconhecimento automático de fala baseados em LLMs, alcançando simultaneamente uma redução na taxa de erro de palavras e um aumento significativo na velocidade de processamento.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess