cs.CV 편의 논문 | Gist.Science

TIPS Over Tricks: Simple Prompts for Effective Zero-shot Anomaly Detection

이 논문은 CLIP 의 한계를 극복하기 위해 공간 인식 목적 함수로 학습된 TIPS 백본을 활용하고, 이미지 수준 및 픽셀 수준 검출을 위해 프롬프트를 분해하여 주입하는 간단한 아키텍처를 제안함으로써 복잡한 보조 모듈 없이도 다양한 산업 데이터셋에서 강력한 제로샷 이상 탐지 성능을 달성함을 보여줍니다.

Alireza Salehi, Ehsan Karami, Sepehr Noey + 4 more2026-02-26💻 cs

Progressive Checkerboards for Autoregressive Multiscale Image Generation

이 논문은 멀티스케일 오토레거시브 이미지 생성을 위해 균형을 유지하는 점진적 체커보드 순서를 도입하여, 병렬 샘플링과 조건부 의존성 모델링을 동시에 효율적으로 수행하면서도 적은 샘플링 단계로 최첨단 성능을 달성하는 방법을 제시합니다.

David Eigen2026-02-26💻 cs

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

이 논문은 시각적 증거를 능동적으로 수집하고 검증하는 에이전트 추론 프레임워크인 V-Retrver 를 제안하여, 기존 언어 중심의 접근법의 한계를 극복하고 범용 멀티모달 검색의 정확성을 크게 향상시켰습니다.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

이 연구는 복부 외상 CT 에서 기초 모델이 작업 특이적 모델과 유사한 판별력을 보이지만, 장 손상이 없는 환자군 내의 동시성 장기 손상과 같은 이질적인 음성 클래스에 의해 특이도가 크게 저하됨을 규명하여 임상 적용 전 이러한 교란 요인에 대한 적응이 필요함을 시사합니다.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

이 논문은 텐서 분해 기법을 활용하여 여러 철도 건널목의 비디오에서 접근, 대기, 통과 단계별 운전자 행동 패턴을 추출하고, 시간대보다 위치가 행동 양상을 결정하는 더 중요한 요소임을 규명함으로써 표적 안전 개입을 위한 데이터 기반 프레임워크를 제시합니다.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

MALLVI: A Multi-Agent Framework for Integrated Generalized Robotics Manipulation

이 논문은 자연어 명령과 환경 이미지를 기반으로 시각 언어 모델의 폐루프 피드백을 통해 특수화된 다중 에이전트 (Decomposer, Localizer, Thinker, Reflector 등) 를 조정하여 로봇 조작의 일반화 성능과 성공률을 향상시키는 'MALLVI' 프레임워크를 제안합니다.

Iman Ahmadi, Mehrshad Taji, Arad Mahdinezhad Kashani + 3 more2026-02-26🤖 cs.AI

Tracing Copied Pixels and Regularizing Patch Affinity in Copy Detection

이 논문은 편집된 콘텐츠의 기하학적 추적 가능성을 활용하여 픽셀 좌표 추적 모듈 (PixTrace) 과 겹침 비율을 기반으로 한 기하학적 대비 손실 (CopyNCE) 을 제안함으로써, 기존 시계열 대비 학습의 한계를 극복하고 이미지 복사 탐지 성능과 해석 가능성을 크게 향상시켰습니다.

Yichen Lu, Siwei Nie, Minlong Lu + 3 more2026-02-26🤖 cs.AI

Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers

이 논문은 Diffusion Transformer 기반 이미지 편집에서 기존 키 (Key) 채널 조작만 활용하던 방식을 넘어, 키와 값 (Value) 채널을 동시에 제어하는 '이중 채널 주의 안내 (DCAG)'라는 훈련 없는 프레임워크를 제안하여 편집 정밀도와 충실도 간의 균형을 획기적으로 개선함을 보여줍니다.

Guandong Li2026-02-26🤖 cs.AI

Hyperbolic Busemann Neural Networks

이 논문은 계층적 데이터 표현에 유리한 쌍곡 기하학을 활용하기 위해 Busemann 함수를 기반으로 BMLR 과 BFC 레이어를 제안하여 기존 쌍곡 신경망보다 효과적이고 효율적인 성능을 입증했습니다.

Ziheng Chen, Bernhard Schölkopf, Nicu Sebe2026-02-26🤖 cs.AI

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

이 논문은 3D 기하학적 사전 지식을 텍스트 프롬프트에 통합하고 렌더링 이미지와 깊이 이미지를 병렬로 처리하여 상호 보완적으로 특징을 융합하는 'GS-CLIP' 프레임워크를 제안함으로써, 학습 데이터 없이도 다양한 이상을 정밀하게 탐지하는 제로샷 3D 이상 탐지 성능을 획기적으로 향상시켰습니다.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

이 논문은 열적 물리를 고려한 시각 - 언어 프롬프트와 잠재 확산 모델을 결합하여, 시간대나 날씨 등 다양한 조건에서 현실적이고 제어 가능한 가상의 열적외선 이미지를 생성하는 'TherA' 프레임워크를 제안합니다.

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang + 3 more2026-02-26💻 cs

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

이 논문은 희소한 라벨 정보에 의존하는 기존 다중 인스턴스 학습의 한계를 극복하기 위해, 전체 슬라이드 이미지의 패치 간 공간적 의존성을 라벨과 무관한 정규화 신호로 활용하여 구조적 패턴과 지도 신호 간의 일관성을 강제하는 새로운 프레임워크를 제안하고 여러 공개 데이터셋에서 우수한 성능을 입증했습니다.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

RAYNOVA 는 강건한 3D 기하학적 사전 지식을 요구하지 않고 상대적 플뤼커 광선 위치 인코딩과 이중 인과적 자기회귀 프레임워크를 통해 다양한 카메라 설정과 자차 운동에 일반화되는 고품질 다중 뷰 주행 시나리오 세계 모델을 제안합니다.

Yichen Xie, Chensheng Peng, Mazen Abdelfattah + 6 more2026-02-26💻 cs

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

이 논문은 짧은 영상 데이터로만 학습된 모델이 긴 영상에 대한 오디오 생성도 가능하도록 하는 계층적 구조와 비인과적 Mamba 를 활용한 MMHNet 을 제안하여, 기존 방법들의 한계를 극복하고 5 분 이상의 장시간 영상-오디오 생성 성능을 획기적으로 향상시켰습니다.

Christian Simon, Masato Ishii, Wei-Yao Wang + 8 more2026-02-26🤖 cs.AI

Uncertainty-Aware Diffusion Model for Multimodal Highway Trajectory Prediction via DDIM Sampling

이 논문은 DDIM 샘플링을 통해 추론 시간을 100 배 단축하고 가우시안 혼합 모델을 적용하여 효율성과 다중 모드 예측 능력을 모두 향상시킨 cVMDx 라는 새로운 확산 기반 고속도로 궤적 예측 프레임워크를 제안하고 highD 데이터셋에서 그 우수성을 입증합니다.

Marion Neumeier, Niklas Roßberg, Michael Botsch + 1 more2026-02-26🤖 cs.LG

Scaling View Synthesis Transformers

이 논문은 기존 연구와 달리 인코더-디코더 아키텍처가 계산 효율성 측면에서 최적일 수 있음을 증명하고, 이를 기반으로 한 '확장 가능한 뷰 합성 모델 (SVSM)'이 이전 최첨단 모델보다 훨씬 적은 학습 비용으로 더 높은 성능을 달성함을 보여줍니다.

Evan Kim, Hyunwoo Ryu, Thomas W. Mitchel + 1 more2026-02-26🤖 cs.AI

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

이 논문은 T1 가중 및 T2-FLAIR MRI 를 입력으로 활용하고 상대적 적대적 손실 함수를 도입하여 기존 방법보다 더 정교하고 사실적인 다중 추적자 PET 영상을 생성하는 'RelA-Diffusion' 프레임워크를 제안합니다.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

Towards Controllable Video Synthesis of Routine and Rare OR Events

이 논문은 수술실 (OR) 의 일상적 및 희귀 안전 관련 이벤트를 기하학적 추상 표현을 기반으로 제어 가능하게 합성하는 비디오 확산 프레임워크를 제안하여, 데이터 부족 문제를 해결하고 안전 임계 이벤트 감지를 위한 인공지능 모델 개발을 지원함을 보여줍니다.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

본 논문은 CLIP 과 같은 시맨틱 - 언어 모델의 미세 조정을 위해 수백만 개의 파라미터를 필요로 하는 기존 방법의 비효율성을 해결하고, 저랭크 분해를 활용한 MMLoP 프레임워크를 제안하여 1 만 1 천 5 백 개의 파라미터만으로도 최첨단 성능을 달성하고 과적합을 방지하며 교차 모달 정렬을 강화하는 효율적인 적응 방식을 제시합니다.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

이 논문은 비전 - 언어 모델 (VLM) 의 제로샷 능력을 활용하여 특정 작업별 지도 학습 없이도 다양한 액션 레이블을 처리할 수 있는 오픈-어휘 제로샷 시계열 액션 분할 (OVTAS) 을 위한 훈련 없는 파이프라인을 제안하고, 14 가지 모델에 대한 체계적 분석을 통해 그 유효성을 입증합니다.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

← 이전 다음 →