Clinically-aligned ischemic stroke segmentation and ASPECTS scoring on NCCT imaging using a slice-gated loss on foundation representations

이 논문은 비조영제 CT 영상에서 뇌졸중 분할 및 ASPECTS 점수 산정을 개선하기 위해 DINOv3 기반 표현과 해부학적 일관성을 강제하는 새로운 손실 함수 (TAGL) 를 결합한 임상 친화적 프레임워크를 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.

Hiba Azeem, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images

이 논문은 2D 기반 DINOv3 사전 학습 모델을 고정된 3D 윈도우 분해 및 재구성 메커니즘을 통해 확장하여 조산아 및 만삭아의 뇌 MRI 에서 해마 구조의 3D 분할을 수행하는 새로운 접근법을 제안하고, 이를 통해 2D 표현으로부터 3D 해부학적 구조를 복원할 수 있음을 입증합니다.

Annayah Usman, Behraj Khan, Tahir Qasim Syed2026-03-02⚡ eess

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

이 논문은 기존 SNN 기반 추적기의 효율성과 정확도 간의 트레이드오프를 해결하기 위해 비대칭 시간 단계 확장 및 단방향 정보 흐름을 활용한 'SpikeTrack'을 제안하여, RGB 객체 추적에서 최첨단 성능을 달성하면서도 TransT 대비 1/26 의 에너지만 소모하는 에너지 효율적인 프레임워크를 제시합니다.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

이 논문은 단일 샷에 국한된 기존 평가의 한계를 극복하기 위해 계층적 스크립트와 참조 이미지를 포함한 최초의 종합적인 멀티샷 비디오 생성 벤치마크인 'MSVBench'를 제안하고, 대규모 멀티모달 모델과 전문가 모델을 결합한 하이브리드 평가 프레임워크를 통해 인간 수준의 평가 신뢰성을 확보함과 동시에 이를 학습 신호로 활용하여 상업적 모델과 견줄 만한 성능을 달성함을 보여줍니다.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

이 논문은 스마트폰 사진 촬영 시 전문가 수준의 미적 피드백과 구도 최적화를 가능하게 하는 최초의 대규모 데이터셋 'AesGuide'와 이를 기반으로 한 두 단계 프레임워크 'Venus'를 제안하여, 기존 멀티모달 대규모 언어 모델의 미적 안내 및 자르기 성능을 획기적으로 개선했습니다.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

이 논문은 기존 마스킹 이미지 생성 모델의 계산 비효율성을 해결하기 위해 이전 특징과 샘플링된 토큰을 모두 활용하여 특징 진화의 평균 속도장을 학습하는 경량 모델 'MIGM-Shortcut'을 제안함으로써, 품질 저하 없이 텍스트-이미지 생성 속도를 4 배 이상 가속화한다고 설명합니다.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

이 논문은 사전 학습된 멀티모달 LLM 의 잠재 표현 매니폴드를 능동적으로 조정하고 수정하여 비디오 이상 탐지 성능을 극대화하는 'SteerVAD'라는 새로운 개입 프레임워크를 제안하며, 기존 튜닝 없는 방법론의 한계를 극복하고 소량의 데이터만으로 최첨단 성능을 달성함을 보여줍니다.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

이 논문은 복잡한 장면에서도 정확한 위험 감지와 일관된 안전 신호 유지를 위해 최적 수송 기반 검출 및 교차 모드 주의력 보정 전략을 결합한 훈련 불필요한 안전 정렬 프레임워크 'GuardAlign'을 제안하여 멀티모달 대형 언어 모델의 안전성을 크게 향상시킨다고 요약할 수 있습니다.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

이 논문은 비전 - 언어 모델의 양자화에서 입력 토큰별 중요 채널 분포의 차이를 고려하여 공유 및 라우팅 전문가 (Mixture of Experts) 를 활용한 토큰 인지형 적응적 오차 보상 기법인 'Quant Experts'를 제안하고, 다양한 모델 규모에서 전체 정밀도 수준의 성능을 유지하며 정확도를 향상시킨다고 설명합니다.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs