Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Cet article propose un cadre de vérification de locuteur robuste basé sur un mélange d'experts conditionné par le bruit, qui décompose l'espace des caractéristiques en sous-espaces spécialisés via un routage automatique, une spécialisation d'experts universels et un apprentissage par curriculum à SNR décroissant pour améliorer la généralisation dans des conditions bruyantes.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Le papier présente MORE-R1, un modèle novateur qui améliore l'extraction de relations entre objets visuels et entités textuelles en guidant un grand modèle vision-langage via un raisonnement étape par étape optimisé par apprentissage par renforcement, surpassant ainsi les méthodes existantes sur le benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Cette étude propose une méthode de génération d'expressions multimodales pilotée par un modèle de langage pour des agents pédagogiques en réalité virtuelle, démontrant que l'alignement dynamique entre le contenu sémantique et les gestes ou la parole améliore significativement l'engagement, l'efficacité perçue et le sentiment de présence sociale des apprenants.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Cet article présente DynHiL-EQA, un nouveau jeu de données pour l'analyse de questions-réponses incarnées dans des environnements dynamiques, ainsi que DIVRR, un cadre d'inférence sans entraînement qui améliore la robustesse et l'efficacité en affinant les vues et en sélectionnant sélectivement la mémoire pour gérer les occlusions et les changements temporels.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Ce papier présente la tâche 5 du défi DCASE 2025, un benchmark de réponse aux questions audio multi-domaines conçu pour évaluer et améliorer les capacités de raisonnement acoustique des modèles audio-langage face à des scènes sonores variées.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Le papier présente EC-Net, un cadre de modèle d'hypergraphe hyperbolique qui utilise des embeddings dans un disque de Poincaré et un apprentissage contrastif pour améliorer la robustesse et la précision de la compréhension des émotions multimodales, en particulier dans des conditions de bruit ou de données partielles.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Ce papier présente ModalImmune, un cadre d'entraînement qui renforce la robustesse des systèmes multimodaux face à la perte ou la corruption de canaux d'entrée en apprenant intentionnellement à s'adapter à la destruction sélective d'informations modales grâce à des mécanismes de régularisation et d'adaptation automatique.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Le papier présente CONSTANT, une nouvelle méthode de génération d'écriture manuscrite en un seul coup d'essai basée sur les modèles de diffusion, qui améliore la qualité et l'adaptation aux styles grâce à une quantification consciente du style et à une amélioration par contraste de patchs.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Cet article propose un cadre en deux étapes combinant un modèle de texte-vers-squelette autoregressif et un générateur vidéo conditionné par la pose avec un encodeur de référence adaptatif, afin de produire des vidéos de mouvements humains complexes à partir de descriptions textuelles tout en palliant le manque de données synthétiques dédiées.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs