Trade-offs between structural richness and communication efficiency in music network representations

Este estudo demonstra que a escolha da codificação de características em representações de redes musicais cria um compromisso fundamental entre a riqueza estrutural e a eficiência comunicativa, onde representações simples geram maior incerteza descritiva mas menor erro de modelo, enquanto representações ricas preservam distinções finas mas aumentam o erro ao expandir o espaço de estados.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

O artigo apresenta o Dolphin, um método eficiente de separação de fala áudio-visual que utiliza o codificador leve DP-LipCoder para transformar movimentos labiais em tokens semânticos discretos e um separador com atenção global-local multi-escala, alcançando qualidade superior ao estado da arte com redução de mais de 50% nos parâmetros e aceleração de 6x na inferência.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

O artigo propõe o HyWA, um método que utiliza uma hiper-rede para gerar pesos personalizados em camadas específicas de um modelo de detecção de atividade vocal, superando as técnicas existentes ao melhorar a precisão média e facilitar a implantação através do reuso da mesma arquitetura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

O artigo propõe a AMB-DSGDN, uma rede neural que utiliza grafos semânticos dinâmicos específicos para cada modalidade e um mecanismo de atenção diferencial para filtrar ruídos e equilibrar adaptativamente a contribuição dos sinais de texto, áudio e vídeo, melhorando assim o reconhecimento de emoções em diálogos multimodais.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

O artigo apresenta o ID-LoRA, um modelo pioneiro que gera simultaneamente a aparência visual e a voz de um sujeito em uma única passagem, utilizando uma adaptação eficiente de parâmetros (In-Context LoRA) em um backbone de difusão áudio-vídeo para superar desafios de sincronização e diluição de identidade, superando métodos existentes como o Kling 2.6 Pro em similaridade vocal e estilo de fala.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

O artigo apresenta o PRoADS, um esquema de esteganografia em áudio baseado em modelos de difusão que utiliza projeção de matriz ortogonal, otimização de latente e inversão de Euler reversa para garantir segurança e uma robustez excepcional, alcançando uma taxa de erro de bits de apenas 0,15% sob compressão MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

O artigo apresenta o FireRedASR2S, um sistema de reconhecimento automático de fala (ASR) industrial de ponta e tudo-em-um que integra módulos de detecção de atividade vocal, identificação de língua falada e previsão de pontuação, alcançando desempenho superior ao estado da arte em diversos benchmarks para mandarim, dialetos chineses, inglês e código misto.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

O artigo apresenta o G-STAR, um sistema de ponta a ponta que integra um módulo de rastreamento de falantes temporalmente consciente com um modelo de linguagem de fala (Speech-LLM) para realizar reconhecimento de fala atribuído a falantes com carimbo de tempo em conversas longas e sobrepostas, garantindo consistência de identidade em nível de reunião.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

Este artigo propõe um framework de reconhecimento automático de fala para múltiplos falantes (MT-ASR) baseado apenas em codificadores que, ao adaptar e destilar os priores semânticos de grandes modelos de linguagem (LLMs) durante o treinamento e utilizar um cabeçalho de contagem de falantes para roteamento dinâmico, alcança desempenho superior em cenários com três falantes e menor custo computacional em comparação com sistemas baseados em LLMs autoregressivos.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Este artigo apresenta o Geo-ATBench, um novo benchmark e tarefa de rotulagem de áudio geoespacial que integra contexto semântico geográfico para melhorar a identificação de eventos sonoros, juntamente com o framework GeoFusion-AT que demonstra que a fusão desses dados com áudio supera abordagens baseadas apenas no som.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

O artigo apresenta o AlphaFlowTSE, um modelo generativo condicional de uma única etapa para extração de fala de falante-alvo que utiliza um objetivo AlphaFlow livre de produtos vetoriais de Jacobiano para melhorar a fidelidade da fala e a generalização em cenários reais, superando as limitações de latência e confiabilidade das soluções existentes.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Este artigo apresenta o HIR-SDD, um novo framework para detecção de deepfakes de voz que combina Grandes Modelos de Linguagem de Áudio com raciocínio inspirado no ser humano, utilizando um conjunto de dados anotado para melhorar a generalização e fornecer explicações interpretáveis para as previsões.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

Este artigo avalia a capacidade de verificação de fala em modelos de linguagem grandes (LLMs) com entrada de áudio, identificando sua baixa discriminação de identidade e propondo uma solução de aumento leve que integra embeddings de falantes congelados via LoRA para alcançar desempenho competitivo sem sacrificar a interface de linguagem natural.

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

O artigo apresenta o OSUM-Pangu, um modelo de fundação de compreensão de fala totalmente open-source desenvolvido na plataforma Ascend NPU sem dependência de CUDA, que integra um encoder de áudio ao LLM OpenPangu-7B para alcançar desempenho comparável a modelos baseados em GPU enquanto promove a evolução independente da inteligência multimodal.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

O artigo apresenta o VoxCare, um sistema escalável de sensores vestíveis que analisa comportamentos de comunicação natural de profissionais de saúde em tempo real sem armazenar áudio bruto, revelando como esses padrões refletem a carga de trabalho e o estresse para melhorar a entrega de cuidados.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs