Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudo apresenta um método inovador baseado em espectrogramas e redes neurais convolucionais que supera as técnicas tradicionais de coeficientes cepstrais de frequência mel (MFCC) na classificação multilabel de sons ambientais complexos do sul da Ásia, demonstrando maior precisão tanto no conjunto de dados SAS-KIIT quanto no UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Este trabalho apresenta e avalia um sistema de streaming de nuvens de pontos dinâmicas que utiliza transcodificação sob demanda, demonstrando empiricamente que o uso de cache e transcodificação especulativa reduz significativamente a carga de processamento e melhora a experiência do usuário, permitindo a escalabilidade para um maior número de clientes simultâneos.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

O artigo propõe a AMB-DSGDN, uma rede neural que utiliza grafos semânticos dinâmicos específicos para cada modalidade e um mecanismo de atenção diferencial para filtrar ruídos e equilibrar adaptativamente a contribuição dos sinais de texto, áudio e vídeo, melhorando assim o reconhecimento de emoções em diálogos multimodais.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

O artigo apresenta o PRoADS, um esquema de esteganografia em áudio baseado em modelos de difusão que utiliza projeção de matriz ortogonal, otimização de latente e inversão de Euler reversa para garantir segurança e uma robustez excepcional, alcançando uma taxa de erro de bits de apenas 0,15% sob compressão MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

O artigo apresenta o G-STAR, um sistema de ponta a ponta que integra um módulo de rastreamento de falantes temporalmente consciente com um modelo de linguagem de fala (Speech-LLM) para realizar reconhecimento de fala atribuído a falantes com carimbo de tempo em conversas longas e sobrepostas, garantindo consistência de identidade em nível de reunião.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

O artigo apresenta o P-GSVC, um novo framework de splatting gaussiano 2D progressivo e em camadas que oferece uma solução unificada para reconstrução escalável de imagens e vídeos, utilizando uma estratégia de treinamento conjunto que supera métodos sequenciais ao garantir compatibilidade entre camadas e melhorar significativamente a qualidade da reconstrução.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Este artigo propõe um novo sistema de detecção de alucinações visuais estruturais em imagens de personagens de desenho animado geradas por modelos Texto-para-Imagem, utilizando um Modelo Visão-Linguagem aprimorado por aprendizado em contexto com orientação de pose (PA-ICVL), que demonstra melhorias significativas de desempenho em comparação com métodos baseados apenas em imagens RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Este artigo apresenta um conjunto de testes baseados em medições psicofísicas da visão de baixo nível para avaliar a capacidade de métricas de qualidade de imagem e vídeo em capturar aspectos fundamentais da percepção humana, revelando limitações e comportamentos específicos de 34 métricas existentes que não são facilmente observados em protocolos de avaliação padrão.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabalho propõe um framework end-to-end para reconhecimento de fala audiovisual robusto que elimina a necessidade de máscaras de ruído explícitas, utilizando um módulo de fusão baseado em Conformer para refinar implicitamente as características de áudio com auxílio visual, preservando assim a integridade semântica da fala e superando métodos baseados em máscaras em condições ruidosas.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Este artigo examina os desafios e oportunidades impostos pela rápida evolução da IA na interação humano-dados, destacando a necessidade de redefinir os papéis humanos e de máquina, superar limitações de escalabilidade e incerteza, e integrar princípios cognitivos e de design para construir sistemas analíticos centrados no ser humano na era da inteligência artificial.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI