MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

이 논문은 기존 밀도 기반 트랜스포머 모델의 계산 과부하 문제를 해결하기 위해 물리적 상호작용과 배경 업데이트를 분리하는 '분리된 역학 예측 (DDP)' 원리를 적용한 효율적인 세계 모델 DDP-WM 을 제안하며, 이를 통해 추론 속도를 약 9 배 향상시키고 계획 성공률을 98% 로 개선함을 보여줍니다.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

이 논문은 제한된 길이의 훈련 데이터와 무한한 길이의 테스트 환경 사이의 간극을 해결하기 위해 훈련 없이 적용 가능한 'Rolling Sink'를 제안하여, 5 초 길이의 데이터로 훈련된 자기회귀 비디오 확산 모델을 30 분 이상의 초장편 영상 생성에 성공적으로 확장합니다.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

이 논문은 자연 이미지 백본의 한계를 극복하고 RNA 및 단백질 프로파일과 같은 분자 정보를 활용하여 적응형 영역을 자동으로 분할하는 새로운 파운데이션 모델 'CARE'를 제안하며, 기존 모델보다 적은 데이터로 다양한 병리학적 태스크에서 우수한 성능을 입증합니다.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

이 논문은 시각적 왜곡으로 인한 성능 저하를 해결하기 위해 인과성 기반의 이중 경로 프레임워크 'RobustVisRAG'와 새로운 벤치마크 'Distortion-VisRAG'를 제안하여, 의미와 왜곡 요소를 분리함으로써 시각적 열악한 환경에서도 견고한 검색 및 생성 성능을 달성함을 보여줍니다.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

이 논문은 포즈나 라벨 없이 유튜브의 자연스러운 주행 영상만으로 학습된 'LFG'라는 라벨 없는 교사 유도 프레임워크를 제안하여, 단일 모노큘러 카메라만으로도 기존 다중 카메라 및 라이다 기반 방법보다 우수한 자율 주행 계획 및 다양한 3D 인식 성능을 달성하는 통합 비디오 중심 기초 모델을 개발했습니다.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

이 논문은 NeRF 및 3D 가우스 스플래팅과 같은 신경 재구성 기법의 아티팩트와 동적 객체 통합의 한계를 극복하기 위해, 사전 훈련된 확산 모델을 기반으로 실시간 시뮬레이션 환경에서 단일 GPU 로 작동하는 온디바이스 생성 향상 프레임워크인 DiffusionHarmonizer 를 제안합니다.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

이 논문은 비전 기반 대형 언어 모델 (VLLM) 의 GRPO 학습에서 추론 중심 접근법의 한계를 지적하고, 더 넓은 출력 공간과 미세한 보상 안정성을 고려한 'Dr. Seg'라는 새로운 프레임워크를 제안하여 복잡한 시각 시나리오에서의 성능을 향상시켰음을 보여줍니다.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

이 논문은 모호한 깊이 정보와 공간적 불균형 문제를 해결하기 위해 MoGe-2 기반의 깊이 안내 2D-to-3D 뷰 변환기와 혼합 전문가 (MoE) 에서 영감을 받은 지역 안내 전문가 변환기를 도입한 'Dr. Occ' 프레임워크를 제안하여, 순전히 카메라 입력만으로 3D 점유율 예측의 정확도를 획기적으로 향상시킵니다.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs