SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

이 논문은 기존 SNN 기반 추적기의 효율성과 정확도 간의 트레이드오프를 해결하기 위해 비대칭 시간 단계 확장 및 단방향 정보 흐름을 활용한 'SpikeTrack'을 제안하여, RGB 객체 추적에서 최첨단 성능을 달성하면서도 TransT 대비 1/26 의 에너지만 소모하는 에너지 효율적인 프레임워크를 제시합니다.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

이 논문은 단일 샷에 국한된 기존 평가의 한계를 극복하기 위해 계층적 스크립트와 참조 이미지를 포함한 최초의 종합적인 멀티샷 비디오 생성 벤치마크인 'MSVBench'를 제안하고, 대규모 멀티모달 모델과 전문가 모델을 결합한 하이브리드 평가 프레임워크를 통해 인간 수준의 평가 신뢰성을 확보함과 동시에 이를 학습 신호로 활용하여 상업적 모델과 견줄 만한 성능을 달성함을 보여줍니다.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

이 논문은 스마트폰 사진 촬영 시 전문가 수준의 미적 피드백과 구도 최적화를 가능하게 하는 최초의 대규모 데이터셋 'AesGuide'와 이를 기반으로 한 두 단계 프레임워크 'Venus'를 제안하여, 기존 멀티모달 대규모 언어 모델의 미적 안내 및 자르기 성능을 획기적으로 개선했습니다.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

이 논문은 기존 마스킹 이미지 생성 모델의 계산 비효율성을 해결하기 위해 이전 특징과 샘플링된 토큰을 모두 활용하여 특징 진화의 평균 속도장을 학습하는 경량 모델 'MIGM-Shortcut'을 제안함으로써, 품질 저하 없이 텍스트-이미지 생성 속도를 4 배 이상 가속화한다고 설명합니다.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

이 논문은 사전 학습된 멀티모달 LLM 의 잠재 표현 매니폴드를 능동적으로 조정하고 수정하여 비디오 이상 탐지 성능을 극대화하는 'SteerVAD'라는 새로운 개입 프레임워크를 제안하며, 기존 튜닝 없는 방법론의 한계를 극복하고 소량의 데이터만으로 최첨단 성능을 달성함을 보여줍니다.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

이 논문은 복잡한 장면에서도 정확한 위험 감지와 일관된 안전 신호 유지를 위해 최적 수송 기반 검출 및 교차 모드 주의력 보정 전략을 결합한 훈련 불필요한 안전 정렬 프레임워크 'GuardAlign'을 제안하여 멀티모달 대형 언어 모델의 안전성을 크게 향상시킨다고 요약할 수 있습니다.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

이 논문은 비전 - 언어 모델의 양자화에서 입력 토큰별 중요 채널 분포의 차이를 고려하여 공유 및 라우팅 전문가 (Mixture of Experts) 를 활용한 토큰 인지형 적응적 오차 보상 기법인 'Quant Experts'를 제안하고, 다양한 모델 규모에서 전체 정밀도 수준의 성능을 유지하며 정확도를 향상시킨다고 설명합니다.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs