Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation

이 논문은 3D 의료 영상 분할을 위해 원격 탐사 모델인 AMBER 를 기반으로 주파수 도메인에서의 전역 토큰 믹싱을 수행하는 AMBER-AFNO 아키텍처를 제안하여, 기존 트랜스포머의 계산 병목 현상을 해결하면서도 경량화된 모델 크기로 최고 수준의 분할 성능을 달성함을 보여줍니다.

Andrea Dosi, Semanto Mondal, Rajib Chandra Ghosh + 2 more2026-03-02⚡ eess

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

이 논문은 자율주행을 일반화된 언어 문제로 재해석하여 프론트뷰 카메라 입력으로부터 직접 궤적을 생성하는 단일 단계 엔드투엔드 프레임워크인 Max-V1 을 제안하며, nuScenes 데이터셋에서 기존 방법 대비 30% 이상 성능을 향상시키고 뛰어난 도메인 간 일반화 능력을 입증했습니다.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

본 논문은 DINOv2 의 SAE 를 통해 선형 표현 가설을 검증하고, 작업별 개념의 기능적 특성을 규명한 후, 토큰 표현이 단순한 희소성이 아닌 아키타입의 볼록 혼합으로 구성된다는 '민코프스키 표현 가설 (MRH)'을 제안하여 비전 트랜스포머의 해석 가능성을 새로운 기하학적 관점에서 재정립합니다.

Thomas Fel, Binxu Wang, Michael A. Lepori + 8 more2026-03-02🤖 cs.AI

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

이 논문은 멀티모달 대형 언어 모델 (MLLM) 을 활용하여 객체 간 활동과 상호작용에 대한 텍스트 설명을 생성하고 이를 노멀 비디오의 설명과 비교함으로써 복잡한 상호작용 기반 이상을 탐지하고 설명 가능성을 제공하는 새로운 반지도식 비디오 이상 탐지 프레임워크를 제안합니다.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

이 논문은 밀집된 텍스트와 그래픽 요소가 혼재된 정보 집약적 이미지에서 시각적 추론의 정확성과 효율성을 동시에 향상시키기 위해, 경량 드래프트 전문가들이 생성한 다양한 추론 경로를 강력한 판정 모델이 통합하고 합의 기반 선택 메커니즘을 통해 최종 답변을 도출하는 훈련 없는 'Speculative Verdict(SV)' 프레임워크를 제안합니다.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL