cs.MM artigos | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Este estudo apresenta um método inovador baseado em espectrogramas e redes neurais convolucionais que supera as técnicas tradicionais de coeficientes cepstrais de frequência mel (MFCC) na classificação multilabel de sons ambientais complexos do sul da Ásia, demonstrando maior precisão tanto no conjunto de dados SAS-KIIT quanto no UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Este trabalho apresenta e avalia um sistema de streaming de nuvens de pontos dinâmicas que utiliza transcodificação sob demanda, demonstrando empiricamente que o uso de cache e transcodificação especulativa reduz significativamente a carga de processamento e melhora a experiência do usuário, permitindo a escalabilidade para um maior número de clientes simultâneos.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Este artigo apresenta o framework de Incerteza Relativística de Dados (DRU), uma abordagem inovadora que utiliza informações de incerteza para aprimorar a qualidade de imagens de paisagens anime em baixa luminosidade, superando os métodos atuais ao preencher a lacuna de domínio e mitigar a escassez de dados.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

O artigo apresenta o V-Skip, um método que otimiza a compressão de tokens em modelos multimodais através de uma ancoragem visual dual, resolvendo o problema de "amnésia visual" para acelerar o raciocínio sem sacrificar a precisão.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

O artigo propõe o GOT-JEPA, um framework de pré-treinamento que adapta a arquitetura JEPA para prever modelos de rastreamento em vez de apenas características visuais, combinando-o com o módulo OccuSolver para melhorar a percepção de oclusão e a generalização em ambientes dinâmicos.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

O artigo propõe a AMB-DSGDN, uma rede neural que utiliza grafos semânticos dinâmicos específicos para cada modalidade e um mecanismo de atenção diferencial para filtrar ruídos e equilibrar adaptativamente a contribuição dos sinais de texto, áudio e vídeo, melhorando assim o reconhecimento de emoções em diálogos multimodais.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

O artigo apresenta o PRoADS, um esquema de esteganografia em áudio baseado em modelos de difusão que utiliza projeção de matriz ortogonal, otimização de latente e inversão de Euler reversa para garantir segurança e uma robustez excepcional, alcançando uma taxa de erro de bits de apenas 0,15% sob compressão MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

O artigo apresenta o G-STAR, um sistema de ponta a ponta que integra um módulo de rastreamento de falantes temporalmente consciente com um modelo de linguagem de fala (Speech-LLM) para realizar reconhecimento de fala atribuído a falantes com carimbo de tempo em conversas longas e sobrepostas, garantindo consistência de identidade em nível de reunião.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

O artigo apresenta o P-GSVC, um novo framework de splatting gaussiano 2D progressivo e em camadas que oferece uma solução unificada para reconstrução escalável de imagens e vídeos, utilizando uma estratégia de treinamento conjunto que supera métodos sequenciais ao garantir compatibilidade entre camadas e melhorar significativamente a qualidade da reconstrução.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

O artigo propõe as "Rastros de Atividade de Leitura" (RATs), uma abordagem que trata a leitura como uma atividade criativa por si só e para futuros artefatos, tornando visível o trabalho interpretativo que está sendo automatizado e comprimido por feeds algorítmicos e resumos de IA, ilustrado através de uma instância especulativa na Wikipedia chamada WikiRAT.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

O artigo apresenta o V2M-Zero, um método inovador de geração de música sincronizada com vídeos que, ao alinhar as curvas de eventos temporais de cada modalidade de forma independente, alcança resultados superiores aos modelos baseados em dados pareados sem exigir treinamento cruzado ou pares de dados.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Este artigo propõe um novo sistema de detecção de alucinações visuais estruturais em imagens de personagens de desenho animado geradas por modelos Texto-para-Imagem, utilizando um Modelo Visão-Linguagem aprimorado por aprendizado em contexto com orientação de pose (PA-ICVL), que demonstra melhorias significativas de desempenho em comparação com métodos baseados apenas em imagens RGB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Este artigo apresenta um conjunto de testes baseados em medições psicofísicas da visão de baixo nível para avaliar a capacidade de métricas de qualidade de imagem e vídeo em capturar aspectos fundamentais da percepção humana, revelando limitações e comportamentos específicos de 34 métricas existentes que não são facilmente observados em protocolos de avaliação padrão.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabalho propõe um framework end-to-end para reconhecimento de fala audiovisual robusto que elimina a necessidade de máscaras de ruído explícitas, utilizando um módulo de fusão baseado em Conformer para refinar implicitamente as características de áudio com auxílio visual, preservando assim a integridade semântica da fala e superando métodos baseados em máscaras em condições ruidosas.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

O artigo apresenta o VDCook, um sistema operacional de dados de vídeo autoevolutivo e configurável que permite a pesquisadores e equipes de domínio vertical gerar, atualizar e expandir continuamente conjuntos de dados especializados para MLLMs por meio de consultas em linguagem natural e síntese controlada.

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Este artigo examina os desafios e oportunidades impostos pela rápida evolução da IA na interação humano-dados, destacando a necessidade de redefinir os papéis humanos e de máquina, superar limitações de escalabilidade e incerteza, e integrar princípios cognitivos e de design para construir sistemas analíticos centrados no ser humano na era da inteligência artificial.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

O artigo apresenta o Alkaid, um esquema de esteganografia provadamente segura que utiliza codificação com restrição de distância para garantir a recuperação robusta de mensagens mesmo na presença de erros de edição, superando os métodos atuais em resiliência, capacidade e eficiência.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

Controllable Dance Generation with Style-Guided Motion Diffusion

O artigo apresenta o SGMD, um modelo de difusão de movimento guiado por estilo que integra características musicais e prompts de estilo para gerar sequências de dança realistas e controláveis, superando as limitações de alinhamento estilístico e flexibilidade existentes em abordagens anteriores.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

O artigo apresenta o altiro3D, uma biblioteca gratuita que gera experiências 3D realistas e síntese de novas visualizações a partir de uma única imagem ou vídeo plano, utilizando estimativa de profundidade, técnicas de inpainting e um algoritmo rápido para projeção 3D, permitindo a exibição em telas LCD de visão livre.

E. Canessa, L. Tenze2026-03-10💻 cs

← Anterior Próximo →