cs.MM papers | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

Dit artikel introduceert CDGLT, een trainings-efficiënt framework voor multimodaal metafoorherkenning dat gebruikmaakt van conceptdrift en LayerNorm-tuning om de kloof tussen letterlijke en figuurlijke interpretaties te overbruggen en state-of-the-art prestaties te behalen op de MET-Meme-benchmark.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Dit artikel presenteert een innovatieve aanpak waarbij AI gegenereerde zang en virtuele avatars worden gebruikt om studiegidsen in een aantrekkelijk audiovisueel formaat te presenteren, wat volgens de resultaten de betrokkenheid van studenten verhoogt en de retentie van belangrijke cursusinformatie verbetert.

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Dit paper introduceert een robuust framework voor sprekerherkenning onder ruisomstandigheden dat gebruikmaakt van een noise-conditioned mixture-of-experts-architectuur met gespecialiseerde netwerken en een curriculumleerprotocol om de prestaties te verbeteren ten opzichte van bestaande methoden.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Dit paper introduceert het eerste formele kader voor audio-visuele wereldmodellen, inclusief het AVW-4k dataset en het AV-CDiT-model, om agents in staat te stellen toekomstige multimodale toestanden te simuleren en zo hun prestaties bij navigatie significant te verbeteren.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Het MEGC2026-challenge introduceert twee nieuwe taken, namelijk micro-expressie video-vraagbeantwoording (ME-VQA) en langdurige video-vraagbeantwoording (ME-LVQA), om de analyse van micro-expressies met behulp van multimodale grote taalmodellen te bevorderen.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Dit paper introduceert VoxEmo, een uitgebreide benchmark voor spraak-gevoelsherkenning met spraak-LLMs die 35 corpora in 15 talen omvat en een nieuwe evaluatiemethode biedt die rekening houdt met de subjectiviteit en ambiguïteit van menselijke emoties.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Dit paper onderzoekt hoe eind-tot-eind latentie de interactievlotheid en sociale aanwezigheid in VR-conferenties beïnvloedt door middel van subjectieve experimenten die deze factoren vergelijken met traditionele videoconferenties om inzicht te krijgen in de onderliggende perceptuele en cognitieve mechanismen.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Deze paper introduceert TPIFM, een taakbewust model dat de perceptuele interactievlotheid in remote AR-samenwerking nauwkeurig evalueert door de netwerkimperfecties te relateren aan de taakspecifieke netheidstolerantie (JND) van gebruikers.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

Dit onderzoek analyseert hoe netwerklatenie de pragmatische en hedonische aspecten van de gebruikservaring beïnvloedt in netwerkgebaseerde VR-witborden, door verschillende samenwerkingsmodi en platformtypen te vergelijken om richtlijnen voor optimalisatie te bieden.

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Dit paper introduceert MORE-R1, een nieuw model dat Large Vision-Language Models (LVLMs) via een twee-staps trainingsproces met toezicht en versterkingslearning in staat stelt om complexe multimodale object-entiteitsrelaties te extraheren door middel van expliciete stap-voor-stap redenering.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Deze studie presenteert een door een groot taalmodel (LLM) aangedreven methode voor het dynamisch genereren van gecoördineerde spraak- en gebarenexpressies voor pedagogische agenten in virtuele realiteit, wat leidt tot een verbeterde leerervaring, hogere betrokkenheid en een sterkere sociale aanwezigheid.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Deze paper introduceert het DynHiL-EQA-dataset en het training-vrije DIVRR-framework om Embodied Question Answering in dynamische, menselijke omgevingen te verbeteren door ambiguïteiten op te lossen en efficiënte, compacte geheugenselectie mogelijk te maken.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

Dit paper introduceert PiVOT, een nieuwe visuele prompting-methode voor generiek objecttracking die een voorgeïmplementerd fundamenteel model (CLIP) gebruikt om online visuele prompts te genereren en te verfijnen, waardoor het tracker-model beter in staat is om storende objecten te onderdrukken en de prestaties te verbeteren.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dit paper introduceert Task 5 van de DCASE 2025 Challenge, een meerdimensionale benchmark voor audio-vraag-antwoordtaken die de redeneervermogens van audio-taalmodellen in diverse akoestische domeinen evalueert.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

Dit paper introduceert Q-BAR, een hybride quantum-klassiek framework dat variational quantum circuits gebruikt om semantische anomalieën in blogger-content te detecteren, zelfs bij zeer beperkte trainingsdata, door het probleem te modelleren in een Hilbertruimte.

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Het artikel introduceert Emotion Collider (EC-Net), een hyperbolisch hypergraafkader dat hiërarchische modale relaties en bidirectionele berichtuitwisseling combineert met contrastief leren om robuuste en nauwkeurige sentimentherstelmodellen te realiseren, zelfs bij aanwezigheid van ruis of ontbrekende modaliteiten.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Dit artikel introduceert ModalImmune, een trainingskader dat multimodale systemen robuust maakt tegen het verlies of de corruptie van invoerkanaal door middel van gecontroleerde, zelfdestructieve training die leidt tot stabiele en herstelbare gezamenlijke representaties.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Deze paper introduceert TimeSpot, een benchmark met 1.455 wereldwijde beelden om de beperkte geo-temporele redeneercapaciteiten van Vision-Language-modellen te evalueren en aan te tonen dat er nieuwe methoden nodig zijn voor robuust begrip van tijd en locatie op basis van visuele data.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

CONSTANT is een nieuwe methode voor één-op-een handschriftdirectie die gebruikmaakt van een diffusion-model met patch-contrastversterking en stijl-bewuste kwantisatie om realistische en gedetailleerde handschriftdoelen te genereren die zich aanpassen aan complexe schrijfstijlen.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Deze paper introduceert een tweestapskaskader dat natuurlijke taal omzet in skeletsequentieën en vervolgens naar realistische video's, waarbij het tekort aan openbare datasets voor complexe menselijke bewegingen oplost met een synthetisch dataset en verbeterde prestaties boekt op zowel bewegingsdiversiteit als tijdsconsistentie.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs