cs.MM 件の論文 | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

本論文は、CLIP エンコーダのクロスモーダル埋め込みの球面線形補間（SLERP）を用いた「概念ドリフト」メカニズムと、事前学習済み言語モデルの適応型 LayerNorm 微調整を組み合わせた新しい効率的なフレームワーク「CDGLT」を提案し、マルチモーダル比喩の識別において既存の生成手法よりも計算コストを大幅に削減しながら最先端の性能を達成することを示しています。

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

この論文は、テキスト形式のシラバスが学生に十分に理解されないという課題に対し、AI 生成音楽と仮想アバターを用いてシラバスを歌って提示する新しい手法を提案し、学生の関心と情報定着率を向上させたことを報告しています。

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

この論文は、入力ノイズ情報に基づいて専門家のネットワークへ自動的にルーティングするノイズ条件付き混合専門家フレームワークを提案し、多様な雑音条件下での話者検証の頑健性と汎化性能を向上させる手法を提示しています。

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

この論文は、視覚と聴覚の両方の感覚を統合した世界モデルの概念を初めて定義し、専用データセット「AVW-4k」と新しいモデル「AV-CDiT」を提案することで、マルチモーダルな未来予測と音声視覚ナビゲーションタスクの性能向上を実現するものです。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

本論文は、大規模マルチモーダルモデルの推論能力を活用し、高圧環境における微表情の理解と時空的推論を評価する新たなタスク（ME-VQA および ME-LVQA）を含む「2026 年微表情グランドチャレンジ（MEGC2026）」を提案するものである。

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

この論文は、ゼロショット推論におけるプロンプトの感度や感情の曖昧さといった課題を克服し、35 のコーパスと 15 言語にわたる包括的な評価基準「VoxEmo」を提案することで、音声 LLM による感情認識の標準化と人間の主観的分布への整合性を可能にする研究です。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

本論文は、VR 会議におけるエンドツーエンド遅延が、ユーザーの相互作用の流暢さ（知覚的側面）と社会的臨場感（認知的側面）に与える影響を、従来のビデオ会議と比較した主観実験を通じて分析し、その関係を解明することで没入型仮想環境のシステム最適化に貢献する知見を提供するものである。

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

この論文は、自由エネルギー原理に基づきタスク固有の「知覚的相互作用流暢さ（PIF）」の閾値（JND）を分類し、ネットワーク遅延や停止の影響を評価するタスク対応型モデル「TPIFM」を提案するものです。

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

この論文は、ネットワーク遅延がネットワーク型 VR ホワイトボードのユーザ体験（QoE）に与える影響を、実用的・快楽的側面、協力モード、およびアバターの有無といった多角的な視点から体系的に評価し、システム最適化のための指針を提供するものです。

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

本論文は、視覚オブジェクトとテキストエンティティ間の関係抽出タスク（MORE）において、既存手法の限界を克服し、教師あり微調整（SFT）による高品質な段階的推論データセットの構築と、グループ相対方策最適化（GRPO）を用いた強化学習を組み合わせることで、大規模視覚言語モデル（LVLM）の推論能力を飛躍的に向上させ、最先端の性能を達成した「MORE-R1」を提案するものです。

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

本論文は、大規模言語モデルを活用して指導内容の意味に即した音声とジェスチャーを動的に生成する教育エージェント手法を提案し、VR 環境での実験により、学習者の学習効果や関与度の向上、疲労感の軽減、そして人間らしさや社会的臨場感の増大が確認されたことを報告しています。

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

この論文は、動的かつ人間が関与する環境における Embodied Question Answering（EQA）の課題を解決するため、新しいデータセット「DynHiL-EQA」と、曖昧な観測の検証と情報豊富な証拠の選択的保持により推論効率と頑健性を両立させるトレーニング不要のフレームワーク「DIVRR」を提案しています。

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

CLIP などの事前学習済み基盤モデルを活用してオンラインで視覚的プロンプトを自動生成・更新し、対照的なガイダンスを通じて不要な対象を抑制することで汎用オブジェクトトラッキングの性能を向上させる新しい手法「PiVOT」を提案する論文です。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

DCASE 2025 チャレンジのタスク 5 として発表された本論文は、海洋哺乳類の鳴き声から複雑な現実世界の音響シーンまで多様なドメインを跨ぐオーディオ質問応答（AQA）ベンチマークを提案し、音声言語モデルの推論能力向上と人間レベルの聴覚理解の実現を目指しています。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

この論文は、データが限られた環境でも個々のブロガーの意図しない意味変化を検出できるよう、変分量子回路の利点を活用して低データ領域での異常検出を可能にするハイブリッド量子古典フレームワーク「Q-BAR」を提案し、その有効性を検証したものです。

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

本論文は、ポアンカレ球埋め込みを用いたモダリティ階層の表現と双方向メッセージ伝達によるハイパーグラフ融合、および双曲空間における対照学習を組み合わせた「Emotion Collider（EC-Net）」を提案し、ノイズやモダリティ欠損に対して頑健で高精度な多モーダル感情認識を実現することを示しています。

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

本論文は、トレーニング中に意図的に特定のモダリティ情報を破壊的に縮小させることで、入力チャネルの欠損や破損に対して頑健なマルチモーダル表現を学習する「ModalImmune」というフレームワークを提案し、その有効性を示しています。

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本論文は、視覚入力から現実世界の地理的・時間的推論を行うビジョン・ランゲージモデルの能力を評価するため、80 か国からの 1,455 枚の画像と構造化された予測タスクを含むベンチマーク「TimeSpot」を提案し、既存のモデルが時間的推論において依然として低い性能しか示していないことを明らかにしています。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

この論文は、単一の参照画像から高品質な手書き画像を生成する拡散モデル「CONSTANT」を提案し、スタイルを離散トークンとしてモデル化するスタイル感知量子化、トークンの意味的分離を促す対照的学習、および潜在空間におけるマルチスケールパッチの整合性確保により、既存手法を上回る多言語対応のスタイル適応性と画像品質を実現したことを述べています。

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

この論文は、複雑な人間動作の動画生成における課題を解決するため、自然言語から骨格シーケンスを生成する自己回帰モデルと、その骨格を基に高品質な動画を合成するポーズ条件付き拡散モデルからなる二段階のフレームワークを提案し、さらに複雑な動作に特化した合成データセットを構築したことを報告しています。

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs