cs.MM articles | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

Cet article présente CDGLT, un cadre novateur et économe en calcul pour l'identification des métaphores multimodales qui utilise un mécanisme de dérive conceptuelle et un ajustement de la normalisation par couches pour atteindre des performances de pointe sur le benchmark MET-Meme.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Cet article propose une approche novatrice utilisant des avatars virtuels et de la musique générée par l'IA pour transformer les syllabus textuels en présentations audiovisuelles chantées, afin d'améliorer l'engagement, la mémorisation et la compréhension des étudiants.

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Cet article propose un cadre de vérification de locuteur robuste basé sur un mélange d'experts conditionné par le bruit, qui décompose l'espace des caractéristiques en sous-espaces spécialisés via un routage automatique, une spécialisation d'experts universels et un apprentissage par curriculum à SNR décroissant pour améliorer la généralisation dans des conditions bruyantes.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Cet article présente le premier cadre formel pour les modèles de monde audiovisuels (AVWM), introduisant le jeu de données AVW-4k et le modèle AV-CDiT basé sur la diffusion pour simuler de manière synchronisée les dynamiques visuelles et sonores, améliorant ainsi significativement la navigation des agents.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Le défi MEGC2026 lance deux nouvelles tâches de question-réponse sur vidéo (ME-VQA et ME-LVQA) pour évaluer les capacités des modèles multimodaux à analyser les micro-expressions faciales, qu'elles soient courtes ou longues, en exploitant leurs puissantes capacités de raisonnement.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Le papier présente VoxEmo, un benchmark complet pour l'évaluation des modèles de langage audio dans la reconnaissance des émotions, qui propose un protocole d'étiquetage souple et des stratégies d'ensemble pour mieux capturer l'ambiguïté inhérente aux émotions humaines et la subjectivité des annotations.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Cette étude examine l'impact de la latence sur la fluidité d'interaction et la présence sociale dans les conférences en réalité virtuelle, en comparant ces dimensions perceptives et cognitives à celles des visioconférences traditionnelles afin d'optimiser les systèmes immersifs.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Ce papier propose le modèle TPIFM, une approche axée sur la tâche pour évaluer la fluidité d'interaction perceptive dans la collaboration AR à distance en tenant compte des caractéristiques intrinsèques des tâches et des contraintes réseau.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

Cette étude analyse l'impact de la latence sur la qualité de l'expérience dans les tableaux blancs en réalité virtuelle en réseau, en examinant comment les modes de collaboration et la présence d'avatars modulent les aspects pragmatiques et hédoniques de l'expérience utilisateur.

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Le papier présente MORE-R1, un modèle novateur qui améliore l'extraction de relations entre objets visuels et entités textuelles en guidant un grand modèle vision-langage via un raisonnement étape par étape optimisé par apprentissage par renforcement, surpassant ainsi les méthodes existantes sur le benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Cette étude propose une méthode de génération d'expressions multimodales pilotée par un modèle de langage pour des agents pédagogiques en réalité virtuelle, démontrant que l'alignement dynamique entre le contenu sémantique et les gestes ou la parole améliore significativement l'engagement, l'efficacité perçue et le sentiment de présence sociale des apprenants.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Cet article présente DynHiL-EQA, un nouveau jeu de données pour l'analyse de questions-réponses incarnées dans des environnements dynamiques, ainsi que DIVRR, un cadre d'inférence sans entraînement qui améliore la robustesse et l'efficacité en affinant les vues et en sélectionnant sélectivement la mémoire pour gérer les occlusions et les changements temporels.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

Ce papier présente PiVOT, un nouveau mécanisme de prompt visuel pour le suivi d'objets générique qui exploite le modèle fondamental CLIP pour générer et affiner dynamiquement des prompts en ligne, permettant ainsi au suiveur de mieux supprimer les distracteurs et d'améliorer ses performances.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Ce papier présente la tâche 5 du défi DCASE 2025, un benchmark de réponse aux questions audio multi-domaines conçu pour évaluer et améliorer les capacités de raisonnement acoustique des modèles audio-langage face à des scènes sonores variées.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

Le papier propose Q-BAR, un cadre hybride quantique-classique qui exploite l'efficacité paramétrique des circuits quantiques variationnels pour détecter les anomalies sémantiques dans les contenus de blogueurs en régimes de données limités, surpassant ainsi les méthodes classiques.

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Le papier présente EC-Net, un cadre de modèle d'hypergraphe hyperbolique qui utilise des embeddings dans un disque de Poincaré et un apprentissage contrastif pour améliorer la robustesse et la précision de la compréhension des émotions multimodales, en particulier dans des conditions de bruit ou de données partielles.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Ce papier présente ModalImmune, un cadre d'entraînement qui renforce la robustesse des systèmes multimodaux face à la perte ou la corruption de canaux d'entrée en apprenant intentionnellement à s'adapter à la destruction sélective d'informations modales grâce à des mécanismes de régularisation et d'adaptation automatique.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Le papier présente CONSTANT, une nouvelle méthode de génération d'écriture manuscrite en un seul coup d'essai basée sur les modèles de diffusion, qui améliore la qualité et l'adaptation aux styles grâce à une quantification consciente du style et à une amélioration par contraste de patchs.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Cet article propose un cadre en deux étapes combinant un modèle de texte-vers-squelette autoregressif et un générateur vidéo conditionné par la pose avec un encodeur de référence adaptatif, afin de produire des vidéos de mouvements humains complexes à partir de descriptions textuelles tout en palliant le manque de données synthétiques dédiées.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs