Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

이 논문은 오디오와 비디오의 서로 다른 샘플링 주파수 문제를 해결하기 위해 시간 정렬 로터리 위치 임베딩 (TaRoPE) 과 교차 시간 매칭 손실 (CTM) 을 도입한 멀티모달 자기주의 네트워크를 제안하여, 오디오 - 비디오 감정 인식의 성능을 향상시켰습니다.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

이 논문은 대규모 오디오 언어 모델 (LALMs) 이 현재 콘텐츠 중심 패러다임에서 간과하는 부언어적 단서를 재발견하기 위해 계층별 분석을 수행하고, 선택적 계층 미세조정과 보조 이중 수준 분류 헤드를 포함한 부언어적 강화 미세조정 (PE-FT) 프로토콜을 제안하여 모델의 부언어적 인식 능력을 효과적으로 향상시킨다는 내용입니다.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

이 논문은 확산 기반 이미지 편집 기술이 고안된 무결성 유지 목적과 달리, 역방향 생성 과정에서 워터마크 신호를 노이즈로 간주하여 제거함으로써 기존 robust 워터마킹 시스템의 무결성을 이론적 및 실증적으로 붕괴시킨다는 점을 규명하고, 이에 대한 윤리적 함의와 새로운 설계 지침을 제시합니다.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

이 논문은 변형 가능한 상태 공간 모델과 릴레이 토큰 메커니즘을 도입하여 비디오 및 오디오의 조작 구간을 정밀하게 식별하는 새로운 프레임워크인 'DeformTrace'를 제안하며, 기존 방법들의 한계를 극복하고 적은 파라미터로 최첨단 성능을 달성함을 보여줍니다.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

이 논문은 3DMM 의 표정 파라미터를 소스 이미지에 직접 전달하여 3D 사전 지식을 생성하는 삼면체 (tri-plane) 생성기와 외모와 표정을 분리하는 대비적 사전 학습 프레임워크를 통해, 단일 이미지에서 외모가 유지된 채 표정과 카메라 시점을 제어할 수 있는 3D 인식형 얼굴 애니메이션 방법인 Export3D 를 제안합니다.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

이 논문은 텍스트, 가사, 오디오 프롬프트 등 복합 멀티모달 지시를 기반으로 한 음악 생성 모델을 평가하기 위해 대규모 선호도 데이터셋, 인간 주석 코퍼스, 통합 벤치마크인 CMI-RewardBench 및 효율적인 보상 모델 (CMI-RM) 을 제안하여 음악 생성의 정밀한 정렬과 인간 평가와의 높은 상관관계를 입증합니다.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

음시각적 작업의 이질성으로 인한 부정적 전이를 해결하기 위해 명시적 추론이 포함된 대규모 데이터셋 (AV-UIE v2) 과 작업 간 상호작용을 동적으로 조정하는 I-LoRA 아키텍처를 제안하여, 단일 작업 학습을 능가하는 포괄적인 오디오 - 비주얼 장면 이해 모델 Crab+^{+}를 개발했습니다.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI