cs.MM 편의 논문 | Gist.Science

Soundscapes in Spectrograms: Pioneering Multilabel Classification for South Asian Sounds

이 논문은 MFCC 기반 방법론보다 복잡한 사운드스케이프를 더 정확하게 분류하는 데 효과적인 새로운 스펙트로그램 기반 CNN 아키텍처를 제안하고, SAS-KIIT 및 UrbanSound8K 데이터셋을 통해 그 우수성을 입증했습니다.

Sudip Chakrabarty, Pappu Bishwas, Rajdeep Chatterjee, Tathagata Bandyopadhyay, Digonto Biswas, Bibek HowladerTue, 10 Ma💻 cs

Scalable On-the-fly Transcoding for Adaptive Streaming of Dynamic Point Clouds

이 논문은 캐싱과 예측적 트랜스코딩 기법을 활용하여 동적 포인트 클라우드 스트리밍 시스템의 확장성을 높이고, 동시에 사용자 경험 품질을 개선하는 방법을 제안하고 평가합니다.

Michael Rudolph, Matthias De Fré, Finn Schnier, Tim Wauter, Amr RizkTue, 10 Ma💻 cs

Data relativistic uncertainty framework for low-illumination anime scenery image enhancement

이 논문은 자연 이미지와 달리 저조도 애니메이션 풍경 이미지 개선의 도메인 격차를 해소하기 위해, 불확실성 정보를 활용한 데이터 상대론적 불확실성 (DRU) 프레임워크를 제안하고 이를 통해 기존 최첨단 방법보다 우수한 지각적 및 미적 품질을 달성함을 보여줍니다.

Yiquan Gao, John SeeThu, 12 Ma🤖 cs.LG

Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

이 논문은 멀티모달 추론에서 텍스트 중심의 토큰 압축이 초래하는 '시각적 망각 (Visual Amnesia)' 문제를 해결하기 위해, 언어적 놀라움과 교차 모달 어텐션 흐름을 기반으로 시각적 중요 토큰을 보호하는 'V-Skip'을 제안하여 Qwen2-VL 및 Llama-3.2 모델에서 정확도 손실 없이 2.9 배의 속도 향상을 달성했음을 보여줍니다.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

이 논문은 JEPA 아키텍처를 추적 모델 예측으로 확장하여 GOT-JEPA 프레임워크를 제안하고, 가시성 추정을 위한 OccuSolver 를 결합함으로써 가려짐과 같은 열악한 환경에서도 일반화 능력과 강건성을 크게 향상시킨 객체 추적 방법을 제시합니다.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

이 논문은 텍스트, 음성, 시각 모달리티 간의 노이즈를 제거하고 우세한 모달리티의 편향을 완화하기 위해 차분 그래프 어텐션 메커니즘과 적응형 모달리티 균형 메커니즘을 도입한 AMB-DSGDN 모델을 제안하여 다중 모달 대화 감정 인식 성능을 향상시킵니다.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

이 논문은 직교 행렬 투영을 통해 초기 노이즈에 비밀 메시지를 임베딩하고, 잠재 공간 최적화와 역방향 오일러 역변환을 도입하여 재구성 오차를 최소화함으로써 64kbps MP3 압축 하에서도 0.15% 의 매우 낮은 비트 오류율을 달성하는 증명 가능한 보안성과 강인성을 갖춘 오디오 확산 스테가노그래피 프레임워크 'PRoADS'를 제안합니다.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

이 논문은 장문의 다자간 중첩 음성을 처리할 때 chunk 단위 추론에서 회의 수준의 화자 일관성을 유지하면서 시간 스탬프가 포함된 화자 할당 전사문을 생성하기 위해, 시간 인식 화자 추적 모듈과 Speech-LLM 전사 백본을 결합한 종단간 시스템 'G-STAR'를 제안합니다.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

이 논문은 이미지와 비디오의 확장 가능한 재구성을 위해 베이스 레이어와 향상 레이어로 구성된 2D 가우스 스플래팅을 제안하고, 레이어 간 호환성과 안정적인 점진적 재구성을 보장하기 위해 레이어 간 가우스를 동시에 최적화하는 결합 학습 전략을 통해 기존 순차적 학습 방식보다 PSNR 을 크게 향상시킨 P-GSVC 프레임워크를 소개합니다.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

이 논문은 알고리즘과 AI 요약이 인간적 해석을 자동화하며 사라지게 하는 창의적 독서 과정을 '독서 활동 흔적 (RATs)'이라는 개념으로 재정의하고, 이를 가시화하여 인간 해석의 가치를 보존하는 새로운 도구 설계를 제안합니다.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

이 논문은 텍스트-음악 생성 모델을 비디오 이벤트 곡선으로만 미세 조정하고 추론 시 비디오 이벤트 곡선으로 대체하는 V2M-Zero 를 제안하여, 짝지어진 데이터 없이도 비디오와 음악 간의 시간적 정렬을 달성함을 보여줍니다.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information

이 논문은 포즈 정보를 활용한 컨텍스트 학습 (PA-ICVL) 을 통해 비현실적 렌더링 (NPR) 영역의 시각적 환각을 기존 RGB 기반 방법보다 훨씬 정확하게 탐지하는 새로운 비전 - 언어 모델 (VLM) 시스템을 제안하고 그 유효성을 입증합니다.

Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun SeoMon, 09 Ma🤖 cs.AI

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

이 논문은 SSIM, LPIPS, VMAF 등 기존 영상 품질 평가 지표들이 인간의 저수준 시각 (대비 민감도, 마스킹, 매칭 등) 을 얼마나 잘 반영하는지 검증하기 위한 새로운 테스트 프레임워크를 제안하고, 이를 통해 34 개의 지표들의 행동 패턴과 한계를 규명합니다.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

이 논문은 이미지, 오디오, 텍스트 등 이질적인 모달리티를 별도의 전문가 모델이나 MoE 구조 없이 단일 밀집 Transformer 인코더로 압축하여 메모리 효율성을 극대화하면서도 경쟁력 있는 성능을 달성하는 'Omni-C'를 제안합니다.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

VDCook:DIY video data cook your MLLMs

이 논문은 자연어 쿼리와 가변적 파라미터를 통해 실시간 영상 검색과 생성을 자동화하고, MCP 기반의 지속적 데이터 유입으로 동적 진화하는 오픈 생태계를 구축하여 MLLM 훈련용 전문 영상 데이터셋 제작의 장벽을 낮추는 'VDCook' 플랫폼을 제안합니다.

Chengwei WuMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

이 논문은 AI 시대의 대규모 비정형 데이터와 생성형 모델의 등장으로 인해 발생하는 인간 - 데이터 상호작용의 새로운 도전과제를 분석하고, 기존 효율성 중심의 패러다임을 넘어 인지 및 지각 원리를 통합한 인간 중심의 데이터 분석 시스템 구축을 위한 연구 방향을 제시합니다.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

이 논문은 편집 오류에 대한 복호화 실패 문제를 해결하기 위해 부호어 간 편집 거리를 엄격하게 제한하는 'Alkaid'라는 새로운 스테가노그래피 방식을 제안하여, 이론적으로 증명된 보안성을 유지하면서도 다양한 오류 환경에서 99% 이상의 높은 복호화 성공률과 향상된 용량 및 효율성을 달성함을 보여줍니다.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math

Controllable Dance Generation with Style-Guided Motion Diffusion

이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

이 논문은 단일 RGB 이미지나 평면 비디오에서 MiDaS 깊이 추정, OpenCV 및 Telea 인페인팅, 그리고 DIBR 알고리즘을 활용하여 다중 시점의 가상 이미지를 생성하고 Quilt 콜라주나 자유 시점 LCD 디스플레이에서 현실적인 3D 경험을 제공하는 오픈소스 라이브러리 'altiro3D'를 소개합니다.

E. Canessa, L. Tenze2026-03-10💻 cs

← 이전 다음 →