TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

이 논문은 CLIP 의 한계를 극복하기 위해 공간 인식 목적 함수로 학습된 TIPS 백본을 활용하고, 이미지 수준 및 픽셀 수준 검출을 위해 프롬프트를 분해하여 주입하는 간단한 아키텍처를 제안함으로써 복잡한 보조 모듈 없이도 다양한 산업 데이터셋에서 강력한 제로샷 이상 탐지 성능을 달성함을 보여줍니다.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

이 연구는 복부 외상 CT 에서 기초 모델이 작업 특이적 모델과 유사한 판별력을 보이지만, 장 손상이 없는 환자군 내의 동시성 장기 손상과 같은 이질적인 음성 클래스에 의해 특이도가 크게 저하됨을 규명하여 임상 적용 전 이러한 교란 요인에 대한 적응이 필요함을 시사합니다.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

이 논문은 텐서 분해 기법을 활용하여 여러 철도 건널목의 비디오에서 접근, 대기, 통과 단계별 운전자 행동 패턴을 추출하고, 시간대보다 위치가 행동 양상을 결정하는 더 중요한 요소임을 규명함으로써 표적 안전 개입을 위한 데이터 기반 프레임워크를 제시합니다.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

이 논문은 3D 기하학적 사전 지식을 텍스트 프롬프트에 통합하고 렌더링 이미지와 깊이 이미지를 병렬로 처리하여 상호 보완적으로 특징을 융합하는 'GS-CLIP' 프레임워크를 제안함으로써, 학습 데이터 없이도 다양한 이상을 정밀하게 탐지하는 제로샷 3D 이상 탐지 성능을 획기적으로 향상시켰습니다.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

이 논문은 희소한 라벨 정보에 의존하는 기존 다중 인스턴스 학습의 한계를 극복하기 위해, 전체 슬라이드 이미지의 패치 간 공간적 의존성을 라벨과 무관한 정규화 신호로 활용하여 구조적 패턴과 지도 신호 간의 일관성을 강제하는 새로운 프레임워크를 제안하고 여러 공개 데이터셋에서 우수한 성능을 입증했습니다.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

이 논문은 짧은 영상 데이터로만 학습된 모델이 긴 영상에 대한 오디오 생성도 가능하도록 하는 계층적 구조와 비인과적 Mamba 를 활용한 MMHNet 을 제안하여, 기존 방법들의 한계를 극복하고 5 분 이상의 장시간 영상-오디오 생성 성능을 획기적으로 향상시켰습니다.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

이 논문은 DDIM 샘플링을 통해 추론 시간을 100 배 단축하고 가우시안 혼합 모델을 적용하여 효율성과 다중 모드 예측 능력을 모두 향상시킨 cVMDx 라는 새로운 확산 기반 고속도로 궤적 예측 프레임워크를 제안하고 highD 데이터셋에서 그 우수성을 입증합니다.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

본 논문은 CLIP 과 같은 시맨틱 - 언어 모델의 미세 조정을 위해 수백만 개의 파라미터를 필요로 하는 기존 방법의 비효율성을 해결하고, 저랭크 분해를 활용한 MMLoP 프레임워크를 제안하여 1 만 1 천 5 백 개의 파라미터만으로도 최첨단 성능을 달성하고 과적합을 방지하며 교차 모달 정렬을 강화하는 효율적인 적응 방식을 제시합니다.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

이 논문은 비전 - 언어 모델 (VLM) 의 제로샷 능력을 활용하여 특정 작업별 지도 학습 없이도 다양한 액션 레이블을 처리할 수 있는 오픈-어휘 제로샷 시계열 액션 분할 (OVTAS) 을 위한 훈련 없는 파이프라인을 제안하고, 14 가지 모델에 대한 체계적 분석을 통해 그 유효성을 입증합니다.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs