cs.MM articles | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

Cette étude présente une méthode novatrice de classification multietiquette des sons sud-asiatiques basée sur les spectrogrammes et les réseaux de neurones convolutifs, qui surpasse les techniques traditionnelles utilisant les coefficients MFCC en termes de précision sur les ensembles de données SAS-KIIT et UrbanSound8K.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

Cet article présente et évalue un système de streaming de nuages de points dynamiques utilisant la transcodage à la volée, démontrant que l'ajout de mécanismes de mise en cache et de transcodage spéculatif permet de réduire considérablement la charge de traitement et d'améliorer l'évolutivité du système pour un plus grand nombre d'utilisateurs simultanés.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

Cet article propose un cadre d'incertitude relativiste de données (DRU) pour améliorer les images de paysages d'anime en faible luminosité, en palliant le manque de données par un jeu de données non apparié et en exploitant l'incertitude de l'éclairage pour ajuster dynamiquement les fonctions objectif et surpasser les méthodes actuelles.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

Le papier présente V-Skip, une méthode de compression de la chaîne de pensée pour les modèles multimodaux qui, en évitant l'amnésie visuelle grâce à un mécanisme d'ancrage dual, accélère l'inférence de 2,9 fois sans perte de précision tout en surpassant les méthodes existantes sur des tâches comme DocVQA.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Le papier présente GOT-JEPA, un cadre de pré-entraînement par prédiction de modèles qui améliore la généralisation et la gestion des occlusions dans le suivi d'objets génériques, complété par OccuSolver pour affiner l'estimation de la visibilité et la capture des motifs d'occlusion.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

Cet article propose le réseau AMB-DSGDN, une architecture innovante pour la reconnaissance des émotions multimodales qui utilise des graphes sémantiques dynamiques et un mécanisme d'attention différentielle pour éliminer le bruit et un mécanisme d'équilibrage adaptatif pour prévenir la domination d'une modalité, améliorant ainsi la précision de la détection des états émotionnels.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Le papier propose PRoADS, un cadre de stéganographie audio basé sur les modèles de diffusion qui garantit sécurité et robustesse grâce à une projection matricielle orthogonale et à des techniques d'optimisation latente et d'inversion d'Euler, permettant d'atteindre un taux d'erreur de bits extrêmement faible de 0,15 % même après compression MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Le papier présente G-STAR, un système de reconnaissance automatique de la parole attribué aux locuteurs de bout en bout qui couple un module de suivi temporel des locuteurs avec un modèle de langage pour assurer une cohérence des identités à l'échelle de la réunion tout en générant des transcriptions étiquetées et horodatées.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

Cet article présente P-GSVC, un cadre unifié de splatting gaussien 2D progressif et multicouche qui permet une reconstruction d'images et de vidéos évolutive grâce à une stratégie d'entraînement conjoint surpassant les méthodes séquentielles.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

Ce papier propose les « Reading Activity Traces » (RATs), un cadre conceptuel et technique qui requalifie la lecture comme une activité créative en rendant visibles les trajectoires d'interprétation humaine souvent effacées par l'automatisation, illustré par une mise en œuvre spéculative sur Wikipédia.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Le papier présente V2M-Zero, une méthode de génération de musique à partir de vidéo sans données appariées qui assure un alignement temporel en exploitant les structures de changement communes entre les modalités via des courbes d'événements intra-modales, surpassant ainsi les approches basées sur des données appariées.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

Cet article propose un système de détection d'hallucinations visuelles dans les images de personnages de dessins animés générés par IA, utilisant un modèle vision-langage enrichi par des informations de pose et l'apprentissage en contexte pour améliorer significativement la précision par rapport aux méthodes basées uniquement sur les images RVB.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Cet article propose un ensemble de tests fondés sur des mesures psychophysiques de la vision de bas niveau pour évaluer la capacité de 34 métriques de qualité d'image et de vidéo à modéliser des mécanismes perceptuels clés tels que la sensibilité au contraste, le masquage et l'adaptation, révélant ainsi des limites et des comportements spécifiques non détectables par les protocoles d'évaluation standards.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Cet article propose un cadre de reconnaissance automatique de la parole audiovisuelle (AVSR) robuste au bruit qui, en éliminant les masques explicites et en utilisant une fusion de type Conformer assistée par la vidéo, améliore les performances de reconnaissance dans des environnements bruyants tout en préservant l'intégrité sémantique de la parole.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Ce papier présente Omni-C, un encodeur Transformer dense unique qui compresse des modalités hétérogènes (images, audio, texte) en apprenant des représentations partagées via un pré-entraînement contrastif, permettant ainsi de réduire considérablement la complexité computationnelle et l'empreinte mémoire par rapport aux architectures multimodales traditionnelles.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

VDCook est une plateforme auto-évolutive qui permet aux chercheurs de générer et de mettre à jour continuellement des ensembles de données vidéo spécialisés pour les modèles multimodaux via des requêtes en langage naturel, en combinant récupération de vidéos réelles et synthèse contrôlée.

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Cet article examine comment l'avancement rapide de l'IA, notamment les modèles de fondation, transforme l'interaction humain-données en introduisant de nouveaux défis liés à l'incertitude et à l'échelle, et propose de redéfinir les paradigmes d'interaction en intégrant des principes cognitifs et perceptuels pour bâtir des systèmes d'analyse de données centrés sur l'humain.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

Le papier présente Alkaid, un schéma de stéganographie prouvément sécurisé et résilient aux erreurs d'édition grâce à un codage contraint par la distance, qui garantit une récupération fiable tout en surpassant les méthodes actuelles en termes de robustesse, de capacité et d'efficacité.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

Cet article présente la première revue systématique des modèles audio-langage, offrant une couverture complète de leurs architectures, objectifs d'entraînement et paysages de recherche pour guider les développements futurs dans la compréhension des scènes audio complexes.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Ce papier présente V2A-DPO, un cadre d'optimisation directe des préférences innovant conçu pour aligner les modèles de génération vidéo-vers-audio sur les préférences humaines grâce à un système de notation AudioScore, une pipeline automatisée de données de préférence et une stratégie d'apprentissage par curriculum, surpassant ainsi les méthodes existantes sur le jeu de données VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

← Précédent Suivant →