Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

이 논문은 자율주행을 일반화된 언어 문제로 재해석하여 프론트뷰 카메라 입력으로부터 직접 궤적을 생성하는 단일 단계 엔드투엔드 프레임워크인 Max-V1 을 제안하며, nuScenes 데이터셋에서 기존 방법 대비 30% 이상 성능을 향상시키고 뛰어난 도메인 간 일반화 능력을 입증했습니다.

Sheng Yang, Tong Zhan, Guancheng Chen + 2 more2026-03-02🤖 cs.AI

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

본 논문은 DINOv2 의 SAE 를 통해 선형 표현 가설을 검증하고, 작업별 개념의 기능적 특성을 규명한 후, 토큰 표현이 단순한 희소성이 아닌 아키타입의 볼록 혼합으로 구성된다는 '민코프스키 표현 가설 (MRH)'을 제안하여 비전 트랜스포머의 해석 가능성을 새로운 기하학적 관점에서 재정립합니다.

Thomas Fel, Binxu Wang, Michael A. Lepori + 8 more2026-03-02🤖 cs.AI

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

이 논문은 멀티모달 대형 언어 모델 (MLLM) 을 활용하여 객체 간 활동과 상호작용에 대한 텍스트 설명을 생성하고 이를 노멀 비디오의 설명과 비교함으로써 복잡한 상호작용 기반 이상을 탐지하고 설명 가능성을 제공하는 새로운 반지도식 비디오 이상 탐지 프레임워크를 제안합니다.

Furkan Mumcu, Michael J. Jones, Anoop Cherian + 1 more2026-03-02💻 cs

Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation

이 논문은 밀집된 텍스트와 그래픽 요소가 혼재된 정보 집약적 이미지에서 시각적 추론의 정확성과 효율성을 동시에 향상시키기 위해, 경량 드래프트 전문가들이 생성한 다양한 추론 경로를 강력한 판정 모델이 통합하고 합의 기반 선택 메커니즘을 통해 최종 답변을 도출하는 훈련 없는 'Speculative Verdict(SV)' 프레임워크를 제안합니다.

Yuhan Liu, Lianhui Qin, Shengjie Wang2026-03-02💬 cs.CL

Enhancing CLIP Robustness via Cross-Modality Alignment

이 논문은 적대적 공격 하에서 CLIP 의 성능 저하를 유발하는 텍스트와 이미지 특징 간의 불일치 문제를 해결하기 위해, 최적 수송 기반의 학습 없는 프레임워크인 COLA 를 제안하여 전역적 정렬과 국소적 구조 일관성을 복원함으로써 다양한 벤치마크에서 적대적 공격에 대한 강인성을 크게 향상시킨다는 내용을 담고 있습니다.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

이 논문은 사전 학습된 시각 표현의 취약성을 해결하기 위해 작업과 관련된 시각적 단서에만 주의를 기울이고 방해 요소를 무시하도록 학습되는 경량화된 '주의 기반 특징 집계 (AFA)' 메커니즘을 제안하여, 데이터 증강이나 추가 미세 조정 없이도 시각적 교란이 있는 환경에서 강인한 시각 - 운동 정책을 가능하게 함을 보여줍니다.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

본 연구는 제한된 뇌 MRI 데이터를 활용한 뇌종양 분류 실험을 통해, 의료 도메인 특화 데이터로 사전 학습된 RadImageNet DenseNet121 보다는 대규모 일반 도메인 데이터로 학습된 최신 범용 CNN 인 ConvNeXt-Tiny 가 더 높은 정확도 (93%) 를 보여 의료 영상 분석에서 일반 도메인 사전 학습 모델의 전이 학습 효과가 더 우수할 수 있음을 입증했습니다.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI