cs.MM Arbeiten | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

Die Arbeit stellt CDGLT vor, ein rechen-effizientes Framework zur Identifizierung multimodaler Metaphern, das durch den Einsatz von Konzept-Drift und angepasstem LayerNorm-Tuning einen neuen State-of-the-Art auf dem MET-Meme-Benchmark erreicht.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

Diese Studie stellt einen neuartigen Ansatz vor, bei dem mithilfe von KI-generiertem Gesang und virtuellen Avataren (insbesondere mit dem Tool HeyGem) Lehrpläne in unterhaltsame audiovisuelle Präsentationen umgewandelt werden, um das Engagement der Studierenden zu steigern und die Merkfähigkeit wichtiger Kursinformationen zu verbessern.

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Diese Arbeit stellt ein noise-conditioned Mixture-of-Experts-Framework vor, das durch spezialisierte, rauschbewusste Subräume und ein SNR-abnehmendes Curriculum-Learning die Robustheit der Sprechererkennung unter verschiedenen Störgeräuschen signifikant verbessert.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Diese Arbeit stellt mit AV-CDiT und dem AVW-4k-Datensatz das erste formale Rahmenwerk für audiovisuelle Weltmodelle vor, das synchronisierte binaurale Audio- und Visuelle-Dynamiken unter Aktionskontrolle simuliert und so die Leistung von Agenten bei der Navigation verbessert.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Der Micro-Expression Grand Challenge (MEGC) 2026 stellt zwei neue Aufgaben vor, die multimodale Large Language Models nutzen, um Mikroexpressionen sowohl in kurzen als auch in langen Videos durch Visual Question Answering zu analysieren.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Die Arbeit stellt VoxEmo vor, ein umfassendes Benchmark-Toolkit für die Spracherkennung von Emotionen mit Sprach-LLMs, das durch die Einbeziehung von 35 Korpora in 15 Sprachen, standardisierte Prompt-Strategien und ein weiches Labeling-Verfahren die subjektive Natur menschlicher Emotionen besser abbildet als herkömmliche Ansätze.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Diese Studie untersucht mittels subjektiver Experimente, wie sich End-to-End-Latenz in VR-Konferenzen im Vergleich zu herkömmlicher Videokonferenzierung auf die wahrgenommene Interaktionsflüssigkeit und das soziale Präsenzempfinden auswirkt, um Erkenntnisse für die Optimierung immersiver virtueller Umgebungen zu gewinnen.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Die Studie stellt das TPIFM-Modell vor, das die wahrgenommene Interaktionsflüssigkeit in der ferngesteuerten AR-Zusammenarbeit durch die Klassifizierung von Aufgaben nach ihren just-noticeable differences (JND) bewertet, um Netzwerkbegrenzungen wie Verzögerungen und Unterbrechungen zu berücksichtigen.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

Diese Studie untersucht systematisch, wie Latenz die pragmatische und hedonische Qualität der Erfahrung (QoE) in netzwerkbasierten VR-Whiteboards beeinflusst, indem sie verschiedene Kollaborationsmodi und Plattformen (mit und ohne Avatare) im Vergleich zu PC-basierten Systemen analysiert, um praktische Optimierungsrichtlinien zu entwickeln.

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Die Arbeit stellt MORE-R1 vor, ein neues Modell, das Large Vision-Language Models durch einen zweistufigen Trainingsprozess mit überwachtem Feinabstimmen und verstärkendem Lernen für eine schrittweise, transparente und skalierbare multimodale Extraktion von Objekt-Entitäts-Beziehungen optimiert.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

Diese Studie stellt eine von einem Large Language Model (LLM) gesteuerte Methode zur dynamischen multimodalen Ausdrucks生成 vor, die in virtuellen Lernumgebungen semantisch abgestimmte Sprache und Gesten erzeugt und nachweislich die Lernwirksamkeit, das Engagement sowie das menschliche Erscheinungsbild von pädagogischen Agenten verbessert.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

Die Arbeit stellt PiVOT vor, einen neuen Visual-Prompting-Mechanismus für das generische Objekttracking, der einen vortrainierten Fundamentmodell (CLIP) nutzt, um Online-Visual-Prompts automatisch zu generieren und zu verfeinern, wodurch der Tracker durch kontrastive Führung Störobjekte effektiv unterdrücken und die Verfolgungsleistung verbessern kann.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

Die Studie stellt Q-BAR vor, einen hybriden Quanten-Klassischen Framework, der mittels variationaler Quantenschaltungen die Erkennung semantischer Anomalien in Blogbeiträgen bei extrem geringen Datenmengen ermöglicht und dabei Überanpassung vermeidet.

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Die Arbeit stellt EC-Net vor, ein hyperbolisches Hypergraph-Framework, das durch die Modellierung von Modalitätshierarchien in Poincaré-Kugel-Einbettungen und bidirektionale Hypergraph-Nachrichtenübertragung robuste und genaue multimodale Emotionserkennung auch bei verrauschten oder unvollständigen Daten ermöglicht.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Die Arbeit stellt ModalImmune vor, ein Trainingsframework, das durch gezieltes, kontrolliertes Zusammenbrechen ausgewählter Modalitäten während des Trainings robuste multimodale Repräsentationen erzeugt, um die Zuverlässigkeit von Systemen bei Ausfall oder Korruption von Eingabekanälen zu gewährleisten.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Das Paper stellt CONSTANT vor, ein neuartiges Diffusionsmodell für die One-Shot-Handschreibengenerierung, das durch Style-Aware Quantization und patch-basierte kontrastive Lernverfahren die Herausforderung meistert, komplexe und diverse Handschriftstile aus nur einem Referenzbild realistisch und detailliert nachzubilden.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Die Arbeit stellt ein zweistufiges Framework vor, das durch die Generierung von Skelettsequenzen aus Text und deren nachfolgende Umwandlung in Videos mittels eines pose-gesteuerten Diffusionsmodells sowie die Bereitstellung eines synthetischen Datensatzes die Erzeugung von Videos komplexer menschlicher Bewegungen wie Akrobatik und Kampfkunst verbessert.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs

Weiter →