cs.MM 편의 논문 | Gist.Science

Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification

이 논문은 CLIP 인코더의 교차 모달 임베딩에 대한 구형 선형 보간 (SLERP) 을 활용한 '개념 드리프트' 메커니즘과 적응형 레이어노름 튜닝을 결합하여, 멀티모달 은유 식별의 정확도를 높이고 기존 생성 모델 대비 학습 비용을 대폭 절감한 효율적인 프레임워크인 CDGLT 를 제안합니다.

Wenhao Qian, Zhenzhen Hu, Zijie Song, Jia LiWed, 11 Ma🤖 cs.LG

Singing Syllabi with Virtual Avatars: Enhancing Student Engagement Through AI-Generated Music and Digital Embodiment

이 논문은 HeyGem 과 같은 오픈소스 도구를 활용해 텍스트 기반 강의 개요를 가상 아바타가 부르는 노래로 변환함으로써 학생들의 참여도와 정보 기억력을 향상시키는 새로운 교수법을 제안하고 그 효과를 입증했습니다.

Xinxing WuWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

이 논문은 다양한 배경 잡음 환경에서 화자 확인의 강건성을 향상시키기 위해, 잡음 정보를 기반으로 입력을 전문화된 서브공간으로 자동 라우팅하는 잡음 조건부 혼합 전문가 (Mixture-of-Experts) 프레임워크를 제안합니다.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

이 논문은 MLLM 과 LVLM 의 다중 모달 추론 능력을 활용하여 짧은 비디오와 긴 비디오 모두에서 미세 표정 (ME) 을 이해하고 분석하는 두 가지 새로운 과제 (ME-VQA 및 ME-LVQA) 를 포함하는 2026 년 미세 표정 그랜드 챌린지 (MEGC2026) 를 소개합니다.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. DavisonWed, 11 Ma💻 cs

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

이 논문은 가상현실 (VR) 회의에서 지연 시간이 사용자 경험에 미치는 영향을 분석하기 위해 전통적인 화상 회의와 비교하여 상호작용의 유창성과 사회적 존재감을 평가하고, 이를 통해 몰입형 가상 환경 최적화를 위한 통찰을 제공합니다.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi LinWed, 11 Ma💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

이 논문은 원격 증강현실 협업에서 작업 특성에 따른 지각적 상호작용 유창성 (PIF) 을 평가하기 위해 자유 에너지 원리를 기반으로 작업 인지 차이를 고려한 TPIFM 모델을 제안하고, 이를 통해 네트워크 제약 하의 적응형 시스템 설계에 기여함을 보여줍니다.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi LinWed, 11 Ma💻 cs

Latency Effects on Multi-Dimensional QoE in Networked VR Whiteboards

이 논문은 네트워크 지연이 네트워킹 가상현실 (NVR) 화이트보드 협업의 실용적 및 쾌락적 차원 QoE 에 미치는 영향을 다양한 협업 모드와 플랫폼 (아바타 유무, PC 기반) 을 비교 분석하여 체계적으로 규명하고 최적화 방안을 제시합니다.

Jiarun Song, Yongkang Hou, Fuzheng YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

이 논문은 강화 학습을 통해 단계별 추론 능력을 향상시킨 새로운 모델 MORE-R1 을 제안하여, 기존 방법들의 한계를 극복하고 멀티모달 객체 - 개체 관계 추출 (MORE) 작업에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

이 논문은 대규모 언어 모델 (LLM) 을 활용하여 교육 콘텐츠의 의미적 맥락에 맞춰 말과 제스처를 동적으로 생성하는 교수 에이전트 방식을 제안하고, 가상현실 환경에서의 사용자 경험 평가를 통해 학습 효과, 몰입도, 사회적 존재감 향상 및 피로감 감소에 유의미한 효과가 있음을 입증했습니다.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

이 논문은 동적 인간 환경에서의 embodied question answering (EQA) 과제를 위해 인간 활동과 시간적 변화를 포함한 'DynHiL-EQA' 데이터셋을 제안하고, 모호한 관측을 검증하고 정보성 있는 증거만 선택적으로 기억에 저장하는 훈련 없는 'DIVRR' 프레임워크를 통해 occlusion 상황에서의 강건성과 추론 효율성을 동시에 향상시켰습니다.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

이 논문은 사전 훈련된 CLIP 모델을 활용하여 온라인으로 시각적 프롬프트를 자동 생성 및 정제함으로써 주변 방해 요인을 억제하고 범용 객체 추적 성능을 향상시키는 새로운 'PiVOT' 메커니즘을 제안합니다.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

Q-BAR: Blogger Anomaly Recognition via Quantum-enhanced Manifold Learning

이 논문은 소수의 데이터로도 블로그 작성자의 의미 변조 (semantic mutation) 를 탐지하기 위해, 변분 양자 회로의 높은 표현력과 파라미터 효율성을 활용한 하이브리드 양자 - 고전 프레임워크인 Q-BAR 을 제안하고 있음을 설명합니다.

Maida Wang, Panyun JiangTue, 10 Ma⚛️ quant-ph

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

이 논문은 쌍곡선 공간의 계층적 기하학과 하이퍼그래프 융합 메커니즘을 결합한 'Emotion Collider(EC-Net)'를 제안하여, 노이즈나 일부 모달리티가 결여된 상황에서도 강인하고 일관된 감정 표현을 학습하고 분류 정확도를 향상시킨다는 것을 보여줍니다.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

이 논문은 학습 중 의도적으로 특정 모달리티 정보를 붕괴시켜 다중 모달 시스템이 입력 채널의 손실이나 손상에도 견고한 표현을 학습하도록 하는 'ModalImmune' 프레임워크를 제안하고, 다양한 벤치마크에서 모달리티 제거 및 손상 상황에 대한 복원력과 안정성을 입증합니다.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

이 논문은 단일 참조 이미지만으로 고품질의 손글씨를 생성하기 위해 스타일 인식 양자화, 대비적 학습, 그리고 잠재 공간 패치 정렬을 결합한 확산 기반 모델 'CONSTANT'를 제안하고, 다양한 언어 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증합니다.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh TranTue, 10 Ma💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

이 논문은 자연어 설명을 복잡한 2D 동작 시퀀스로 변환하는 자동회귀 모델과 참조 이미지 및 생성된 스켈레톤을 기반으로 고품질 비디오를 합성하는 포지션 기반 확산 모델을 결합한 2 단계 캐스케이드 프레임워크를 제안하여, 기존 텍스트 기반 방법의 정밀도 부족과 포지션 기반 방법의 데이터 수집 비용 문제를 동시에 해결하고 복잡한 인간 동작 비디오 생성의 한계를 극복합니다.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed BennamounTue, 10 Ma💻 cs