Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring

이 논문은 멀티모달 추론에서 텍스트 중심의 토큰 압축이 초래하는 '시각적 망각 (Visual Amnesia)' 문제를 해결하기 위해, 언어적 놀라움과 교차 모달 어텐션 흐름을 기반으로 시각적 중요 토큰을 보호하는 'V-Skip'을 제안하여 Qwen2-VL 및 Llama-3.2 모델에서 정확도 손실 없이 2.9 배의 속도 향상을 달성했음을 보여줍니다.

Dongxu Zhang, Yiding Sun, Cheng Tan, Wenbiao Yan, Ning Yang, Jihua Zhu, Haijun ZhangThu, 12 Ma💬 cs.CL

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

이 논문은 JEPA 아키텍처를 추적 모델 예측으로 확장하여 GOT-JEPA 프레임워크를 제안하고, 가시성 추정을 위한 OccuSolver 를 결합함으로써 가려짐과 같은 열악한 환경에서도 일반화 능력과 강건성을 크게 향상시킨 객체 추적 방법을 제시합니다.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinThu, 12 Ma🤖 cs.AI

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

이 논문은 텍스트, 음성, 시각 모달리티 간의 노이즈를 제거하고 우세한 모달리티의 편향을 완화하기 위해 차분 그래프 어텐션 메커니즘과 적응형 모달리티 균형 메커니즘을 도입한 AMB-DSGDN 모델을 제안하여 다중 모달 대화 감정 인식 성능을 향상시킵니다.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

이 논문은 직교 행렬 투영을 통해 초기 노이즈에 비밀 메시지를 임베딩하고, 잠재 공간 최적화와 역방향 오일러 역변환을 도입하여 재구성 오차를 최소화함으로써 64kbps MP3 압축 하에서도 0.15% 의 매우 낮은 비트 오류율을 달성하는 증명 가능한 보안성과 강인성을 갖춘 오디오 확산 스테가노그래피 프레임워크 'PRoADS'를 제안합니다.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

이 논문은 장문의 다자간 중첩 음성을 처리할 때 chunk 단위 추론에서 회의 수준의 화자 일관성을 유지하면서 시간 스탬프가 포함된 화자 할당 전사문을 생성하기 위해, 시간 인식 화자 추적 모듈과 Speech-LLM 전사 백본을 결합한 종단간 시스템 'G-STAR'를 제안합니다.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

P-GSVC: Layered Progressive 2D Gaussian Splatting for Scalable Image and Video

이 논문은 이미지와 비디오의 확장 가능한 재구성을 위해 베이스 레이어와 향상 레이어로 구성된 2D 가우스 스플래팅을 제안하고, 레이어 간 호환성과 안정적인 점진적 재구성을 보장하기 위해 레이어 간 가우스를 동시에 최적화하는 결합 학습 전략을 통해 기존 순차적 학습 방식보다 PSNR 을 크게 향상시킨 P-GSVC 프레임워크를 소개합니다.

Longan Wang, Yuang Shi, Wei Tsang OoiThu, 12 Ma💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

이 논문은 SSIM, LPIPS, VMAF 등 기존 영상 품질 평가 지표들이 인간의 저수준 시각 (대비 민감도, 마스킹, 매칭 등) 을 얼마나 잘 반영하는지 검증하기 위한 새로운 테스트 프레임워크를 제안하고, 이를 통해 34 개의 지표들의 행동 패턴과 한계를 규명합니다.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. MantiukMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

이 논문은 AI 시대의 대규모 비정형 데이터와 생성형 모델의 등장으로 인해 발생하는 인간 - 데이터 상호작용의 새로운 도전과제를 분석하고, 기존 효율성 중심의 패러다임을 넘어 인지 및 지각 원리를 통합한 인간 중심의 데이터 분석 시스템 구축을 위한 연구 방향을 제시합니다.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Alkaid: Resilience to Edit Errors in Provably Secure Steganography via Distance-Constrained Encoding

이 논문은 편집 오류에 대한 복호화 실패 문제를 해결하기 위해 부호어 간 편집 거리를 엄격하게 제한하는 'Alkaid'라는 새로운 스테가노그래피 방식을 제안하여, 이론적으로 증명된 보안성을 유지하면서도 다양한 오류 환경에서 99% 이상의 높은 복호화 성공률과 향상된 용량 및 효율성을 달성함을 보여줍니다.

Zhihan Cao, Gaolei Li, Jun Wu, Jianhua Li, Hang Zhang, Mingzhe ChenMon, 09 Ma🔢 math