cs.MM 편의 논문 | Gist.Science

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

이 논문은 오디오와 비디오의 서로 다른 샘플링 주파수 문제를 해결하기 위해 시간 정렬 로터리 위치 임베딩 (TaRoPE) 과 교차 시간 매칭 손실 (CTM) 을 도입한 멀티모달 자기주의 네트워크를 제안하여, 오디오 - 비디오 감정 인식의 성능을 향상시켰습니다.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

On the Possible Detectability of Image-in-Image Steganography

이 논문은 독립 성분 분석과 웨이블릿 변환을 기반으로 한 8 차원 입력 벡터를 사용하여 이미지 내 이미지 스테가노그래피의 높은 검출 가능성 (최대 84.6% 정확도) 을 입증하고, 키 없는 추출 네트워크와 같은 기존 방법론을 통한 취약성을 규명합니다.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

이 논문은 대규모 오디오 언어 모델 (LALMs) 이 현재 콘텐츠 중심 패러다임에서 간과하는 부언어적 단서를 재발견하기 위해 계층별 분석을 수행하고, 선택적 계층 미세조정과 보조 이중 수준 분류 헤드를 포함한 부언어적 강화 미세조정 (PE-FT) 프로토콜을 제안하여 모델의 부언어적 인식 능력을 효과적으로 향상시킨다는 내용입니다.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

이 논문은 단일 RGB 이미지나 평면 비디오에서 MiDaS 깊이 추정, OpenCV 및 Telea 인페인팅, 그리고 DIBR 알고리즘을 활용하여 다중 시점의 가상 이미지를 생성하고 Quilt 콜라주나 자유 시점 LCD 디스플레이에서 현실적인 3D 경험을 제공하는 오픈소스 라이브러리 'altiro3D'를 소개합니다.

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

이 논문은 원본 아바타의 일관성을 해치지 않으면서 텍스트 명령에 따라 애니메이션 3D 인간 텍스처를 고품질로 편집할 수 있도록 기존 Score Distillation Sampling(SDS) 을 개선한 'InstructHumans' 프레임워크를 제안합니다.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

이 논문은 하이브리드 윈도우 어텐션, 보상 역전파, 토큰 길이 기반 학습 전략 등을 통해 학습 및 추론 효율성과 비디오 생성 품질을 동시에 극대화한 고품질 비디오 생성 프레임워크 'EasyAnimate'를 제안합니다.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

이 논문은 축구 방송에서 회전된 로고의 정확한 검출을 위해 회전 감지 바운딩 박스 (OBB) 와 언어 기반 에이전트 계층을 통합한 'ExposureEngine'을 제안하여 스폰서 노출 분석의 정확성과 자동화를 혁신적으로 개선했음을 보여줍니다.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

이 논문은 확산 기반 이미지 편집 기술이 고안된 무결성 유지 목적과 달리, 역방향 생성 과정에서 워터마크 신호를 노이즈로 간주하여 제거함으로써 기존 robust 워터마킹 시스템의 무결성을 이론적 및 실증적으로 붕괴시킨다는 점을 규명하고, 이에 대한 윤리적 함의와 새로운 설계 지침을 제시합니다.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

← 이전

cs.MM

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

On the Possible Detectability of Image-in-Image Steganography

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Controllable Dance Generation with Style-Guided Motion Diffusion

altiro3D: Scene representation from single image and novel view synthesis

InstructHumans: Editing Animated 3D Human Textures with Instructions

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Order Is Not Layout: Order-to-Space Bias in Image Generation

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

cs.MM

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

On the Possible Detectability of Image-in-Image Steganography

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Controllable Dance Generation with Style-Guided Motion Diffusion

altiro3D: Scene representation from single image and novel view synthesis

InstructHumans: Editing Animated 3D Human Textures with Instructions

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Order Is Not Layout: Order-to-Space Bias in Image Generation

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation