cs.MM articoli | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

Il paper introduce CDGLT, un framework efficiente e all'avanguardia per l'identificazione di metafore multimodali che combina l'adattamento del LayerNorm con una strategia di "Concept Drift" basata su SLERP per colmare il divario tra significati letterali e figurativi riducendo drasticamente i costi computazionali.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Questo studio propone un approccio innovativo che utilizza avatar virtuali e musica generata dall'intelligenza artificiale per trasformare i programmi didattici testuali in canzoni audiovisive, migliorando significativamente l'engagement, la comprensione e il ricordo delle informazioni essenziali da parte degli studenti.

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Questo articolo presenta un framework di esperti misti condizionati dal rumore che migliora la verifica robusta del parlante suddividendo lo spazio delle caratteristiche in sottospazi specializzati per diverse condizioni di rumore, utilizzando un meccanismo di instradamento, una strategia di specializzazione e un protocollo di apprendimento curriculare.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Questo lavoro introduce il primo quadro formale per i modelli di mondo audiovisivi, presentando il dataset AVW-4k e il modello AV-CDiT per simulare dinamiche ambientali sincronizzate in audio e video, dimostrando miglioramenti significativi nelle prestazioni di navigazione continua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Il documento presenta la MEGC 2026, una sfida internazionale che introduce due nuovi compiti di question answering su video (ME-VQA e ME-LVQA) basati sull'analisi delle micro-espressioni facciali tramite modelli linguistici e visivi multimodali.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Il paper presenta VoxEmo, un benchmark completo per la valutazione dei modelli linguistici vocali nell'ambito del riconoscimento delle emozioni, che affronta le sfide della generazione testuale aperta e dell'ambiguità emotiva attraverso un kit di strumenti standardizzato e protocolli di valutazione adattati alla percezione umana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Questo studio analizza l'impatto della latenza end-to-end sulla fluidità di interazione e sulla presenza sociale nelle conferenze in realtà virtuale attraverso esperimenti soggettivi che confrontano questi sistemi con la videoconferenza tradizionale, fornendo indicazioni per ottimizzare l'esperienza utente negli ambienti virtuali immersivi.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Il paper propone il modello TPIFM, una soluzione basata sul principio dell'energia libera che valuta la fluidità percettiva dell'interazione nella realtà aumentata collaborativa remota classificando i compiti in base alla loro sensibilità ai ritardi di rete e permettendo così un'ottimizzazione adattiva dell'esperienza utente.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

Questo studio analizza l'impatto della latenza sulla qualità dell'esperienza (QoE) nelle lavagne virtuali di realtà aumentata, esaminando come essa influisca diversamente su aspetti pragmatici ed edonici in vari modalità di collaborazione e tra piattaforme con o senza avatar, al fine di fornire linee guida per l'ottimizzazione di tali sistemi.

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Il paper presenta MORE-R1, un modello innovativo che guida i Large Vision-Language Model nell'estrazione di relazioni tra oggetti visivi ed entità testuali attraverso un ragionamento passo-passo ottimizzato con l'apprendimento per rinforzo, ottenendo prestazioni all'avanguardia sul benchmark MORE.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Questo studio propone un metodo guidato da modelli linguistici di grandi dimensioni per generare espressioni multimodali dinamiche e semanticamente coerenti in agenti pedagogici per la realtà virtuale, dimostrando che tale approccio migliora significativamente l'efficacia percepita, l'engagement e la presenza sociale degli studenti, riducendo al contempo noia e affaticamento.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Il paper introduce DynHiL-EQA, un nuovo dataset per la risposta a domande in ambienti embodied dinamici, e propone DIVRR, un framework senza addestramento che migliora la robustezza e l'efficienza inferenziale attraverso la raffinazione delle viste e la selezione adattiva della memoria.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

Il paper presenta PiVOT, un nuovo meccanismo di prompting visivo che sfrutta il modello fondazionale CLIP per generare e raffinare dinamicamente prompt online, migliorando le prestazioni del tracciamento generico di oggetti sopprimendo efficacemente gli oggetti distraenti.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Questo documento presenta il Task 5 della sfida DCASE 2025, un benchmark per la risposta alle domande audio (AQA) che valuta la capacità di ragionamento acustico dei modelli linguistico-audio su tre sottogruppi di domini diversi, fornendo dataset, protocolli di valutazione e risultati preliminari di sistemi baselines.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

Il paper propone Q-BAR, un framework ibrido quantistico-classico che sfrutta circuiti quantistici variazionali per rilevare anomalie semantiche nei contenuti dei blogger in scenari con dati limitati, superando i limiti di generalizzazione dei metodi classici tradizionali.

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Il paper presenta EC-Net, un framework iperbolico basato su ipergrafi che utilizza embedding nello spazio di Poincaré e apprendimento contrastivo per migliorare la robustezza e l'accuratezza del riconoscimento delle emozioni multimodali, specialmente in presenza di rumore o dati mancanti.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Il paper presenta ModalImmune, un framework di addestramento che garantisce la resilienza dei sistemi multimodali alla perdita o corruzione dei canali di input, insegnando al modello a sviluppare rappresentazioni congiunte robuste attraverso un processo controllato di collasso delle informazioni modali.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Il paper introduce TimeSpot, un nuovo benchmark composto da 1.455 immagini reali provenienti da 80 paesi per valutare le capacità di ragionamento geo-temporale dei modelli visione-linguaggio, evidenziando che, nonostante i recenti progressi, questi modelli mostrano prestazioni ancora limitate nell'inferenza temporale e nella comprensione spaziale fisicamente fondata.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Il paper presenta CONSTANT, un nuovo metodo basato su modelli di diffusione che utilizza l'enhancement contrastivo a patch e la quantizzazione consapevole dello stile per generare immagini di scrittura a mano di alta qualità partendo da un'unica immagine di riferimento, superando le limitazioni delle tecniche attuali nella cattura delle caratteristiche stilistiche complesse.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Il paper propone un framework a due stadi che combina un modello autoregressivo testo-ossa per generare sequenze di pose da descrizioni testuali e un modello di diffusione video condizionato alle pose con un encoder di riferimento adattivo, superando le limitazioni dei metodi attuali nella generazione di video complessi di movimento umano e introducendo un nuovo dataset sintetico per colmare la carenza di dati su acrobazie e movimenti dinamici.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs