cs.CV 편의 논문 | Gist.Science

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

이 논문은 사전 학습된 비전 모델의 특징을 PCA 서브스페이스 모델링에 활용하여 메모리 뱅크나 추가 학습 없이도 소수의 정상 이미지만으로 산업적 이상 탐지에서 최첨단 성능을 달성하는 'SubspaceAD'라는 훈련 없는 방법을 제안합니다.

Camile Lendering, Erkut Akdag, Egor Bondarev2026-02-27🤖 cs.LG

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

본 논문은 항공 이미지 내의 작은 객체 검출 성능을 향상시키기 위해 ResNet-50 에 공간 라플라시안 피라미드 주의 (SLPA) 모듈을 도입하고, FPN 의 측면 연결부에 다중 스케일 특징 향상 모듈 (MSFEM) 을 적용하며, 특징 정렬을 위해 변형 합성곱을 활용한 새로운 검출 모델을 제안하고 VisDrone 과 DOTA 데이터셋에서 그 우수성을 입증했습니다.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

이 논문은 D-FINE 아키텍처에 경량 마스크 헤드와 세그멘테이션 인식 학습 기법을 도입하여 실시간 객체 검출 및 인스턴스 세그멘테이션 성능을 향상시키고, ONNX, TensorRT, OpenVINO 등 다양한 백엔드에서의 최적화된 추론을 지원하는 오픈소스 프레임워크 D-FINE-seg 를 제안합니다.

Argo Saakyan, Dmitry Solntsev2026-02-27💻 cs

GeoWorld: Geometric World Models

이 논문은 기존 유클리드 공간 기반 예측 세계 모델의 한계를 극복하기 위해 쌍곡선 다양체 상의 잠재 표현과 기하학적 강화학습을 도입한 'GeoWorld'를 제안하여 장기 계획 성능을 크게 향상시켰음을 보여줍니다.

Zeyu Zhang, Danning Li, Ian Reid + 1 more2026-02-27💻 cs

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

이 논문은 4D 데이터의 부족과 전이 학습의 한계를 극복하기 위해 최적 수송 이론을 활용한 '정렬 (Align)' 단계와 효율적 어댑터를 통한 '적응 (Adapt)' 단계를 순차적으로 수행하는 새로운 파라미터 효율적 전이 학습 프레임워크인 PointATA 를 제안하여, 3D 사전 학습 모델을 4D 인식 작업에 효과적으로 적용할 수 있음을 보여줍니다.

Yiding Sun, Jihua Zhu, Haozhe Cheng + 4 more2026-02-27💻 cs

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

이 논문은 인간 뇌 현미경 이미지의 세포 구조 분석을 위해, 정교한 이미지 - 텍스트 쌍 데이터 없이도 레이블을 매개로 문헌 기반 설명을 생성하여 기존 비전 기반 모델을 자연어와 연결하는 약한 지도 학습 방법을 제안합니다.

Matthew Sutton, Katrin Amunts, Timo Dickscheid + 1 more2026-02-27💻 cs

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

이 논문은 이벤트 카메라의 희소하고 비동기적인 출력을 처리할 때 공간적 구조와 모션 선명도 사이의 균형을 최적화하기 위해 지역적 신호 동역학에 따라 감쇠를 조절하는 '국소 적응형 감쇠 표면 (LADS)'을 제안하여, 기존 방법보다 높은 정확도로 얼굴 탐지 및 랜드마크 검출 성능을 향상시키고 더 가벼운 네트워크 구조로도 실시간 처리가 가능하도록 함을 보여줍니다.

Paul Kielty, Timothy Hanley, Peter Corcoran2026-02-27💻 cs

SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation

본 논문은 의료 영상 분할에서 구조적 맥락과 세밀한 경계 정보를 효과적으로 통합하기 위해 주파수 영역에서 저주파와 고주파 특징을 해리하여 학습하는 새로운 프레임워크인 SpectralMamba-UNet 을 제안합니다.

Fuhao Zhang, Lei Liu, Jialin Zhang + 2 more2026-02-27💻 cs

FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time

이 논문은 노이즈와 아웃라이어에 강인하면서도 실시간으로 카메라 헤딩을 추정하기 위해 단위 구를 피보나치 격자로 이산화하고 대원 투표를 수행하는 새로운 기하학적 추론 방법인 FLIGHT 를 제안하며, 이를 통해 SLAM 초기화 시 오차를 줄이고 정확도와 효율성의 최적 균형을 달성함을 보여줍니다.

David Dirnfeld, Fabien Delattre, Pedro Miraldo + 1 more2026-02-27💻 cs

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

이 논문은 이미지 분류에서의 적대적 전이성 (adversarial transferability) 에 대한 포괄적인 검토와 6 가지 범주로 분류된 공격 기법들을 체계화하고, 편향된 평가를 방지하기 위한 표준 벤치마크 프레임워크를 제안하며 전이성 향상 전략과 공정한 비교를 위한 주의점을 제시합니다.

Xiaosen Wang, Zhijin Ge, Bohan Liu + 5 more2026-02-27🤖 cs.AI

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

이 논문은 이미지 레벨 라벨만으로 객체 위치를 추정하는 약지도 객체 국소화 (WSOL) 문제를 해결하기 위해, 프리셋된 비전 트랜스포머와 TriHead 모듈을 활용하여 최소한의 학습 파라미터로 최첨단 성능을 달성하는 단일 단계 프레임워크 'TriLite'를 제안합니다.

Arian Sabaghi, José Oramas2026-02-27💻 cs

From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification

이 논문은 소프트맥스의 과도한 자신감과 소실되는 하드 양측 샘플 문제를 해결하기 위해, 확률적 증거 보정을 통해 불확실성을 줄이고 복합 각도 마진 및 확실성 기반 구 가중치를 통해 노이즈가 포함된 라벨 데이터에서 사람 재식별 (Re-ID) 성능을 향상시키는 CARE 프레임워크를 제안합니다.

Xin Yuan, Zhiyong Zhang, Xin Xu + 2 more2026-02-27💻 cs

← 이전 다음 →

cs.CV

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

GeoWorld: Geometric World Models

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation

FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification

No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors

Partial recovery of meter-scale surface weather

Learning Continuous Wasserstein Barycenter Space for Generalized All-in-One Image Restoration

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Through BrokenEyes: How Eye Disorders Impact Face Detection?