Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning

이 논문은 UAV 가 고도계나 깊이 센서 없이도 단안 RGB 영상과 자연어 명령만으로 복잡한 도시 환경을 항해할 수 있도록, 공간·시간·체화 추론을 통합한 단일 프레임워크와 키프레임 선택 및 행동 병합 기법을 제안하고 AerialVLN 및 OpenFly 벤치마크에서 기존 RGB-only 방법들을 크게 능가하는 성능을 입증합니다.

Huilin Xu, Zhuoyang Liu, Yixiang Luomei + 1 more2026-02-26🤖 cs.AI

FigEx2: Visual-Conditioned Panel Detection and Captioning for Scientific Compound Figures

이 논문은 과학적 복합 도해의 개별 패널을 탐지하고 캡션을 생성하는 'FigEx2' 프레임워크를 제안하며, 노이즈 인식 게이트 퓨전 모듈과 강화학습 기반 최적화 전략을 통해 탐지 정확도와 캡션 품질을 대폭 향상시키고 다양한 과학 분야로 제로샷 전이가 가능함을 입증했습니다.

Jifeng Song, Arun Das, Pan Wang + 3 more2026-02-26💬 cs.CL

Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification

이 논문은 항공 및 지상 카메라 간의 극단적인 기하학적 왜곡으로 인한 유사성 공간의 왜곡 문제를 해결하기 위해, 카메라 기하학에 기반한 쿼리 - 키 변환 (GIQT) 과 기하학적 조건부 프롬프트 생성 메커니즘을 도입하여 다양한 기준 데이터셋에서 강건한 항공 - 지상 인물 재식별 성능을 달성하는 방법을 제안합니다.

Kailash A. Hambarde, Hugo Proença2026-02-26💻 cs

HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic

이 논문은 보행자, 자전거, 오토바이 등 다양한 취약 도로 사용자 (VRU) 가 혼재하는 복잡한 교통 환경을 위한 고해상도 드론 기반 데이터셋 'HetroD'와 벤치마크를 제안하며, 기존 자율주행 모델이 이러한 비구조적이고 역동적인 VRU 의 행동을 예측하고 계획하는 데 어려움을 겪고 있음을 실증합니다.

Yu-Hsiang Chen, Wei-Jer Chang, Christian Kotulla + 7 more2026-02-26💻 cs

TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

이 논문은 CLIP 의 한계를 극복하기 위해 공간 인식 목적 함수로 학습된 TIPS 백본을 활용하고, 이미지 수준 및 픽셀 수준 검출을 위해 프롬프트를 분해하여 주입하는 간단한 아키텍처를 제안함으로써 복잡한 보조 모듈 없이도 다양한 산업 데이터셋에서 강력한 제로샷 이상 탐지 성능을 달성함을 보여줍니다.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

이 연구는 복부 외상 CT 에서 기초 모델이 작업 특이적 모델과 유사한 판별력을 보이지만, 장 손상이 없는 환자군 내의 동시성 장기 손상과 같은 이질적인 음성 클래스에 의해 특이도가 크게 저하됨을 규명하여 임상 적용 전 이러한 교란 요인에 대한 적응이 필요함을 시사합니다.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

이 논문은 텐서 분해 기법을 활용하여 여러 철도 건널목의 비디오에서 접근, 대기, 통과 단계별 운전자 행동 패턴을 추출하고, 시간대보다 위치가 행동 양상을 결정하는 더 중요한 요소임을 규명함으로써 표적 안전 개입을 위한 데이터 기반 프레임워크를 제시합니다.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG