cs.CV 편의 논문 | Gist.Science

Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

이 논문은 기차에 장착된 단일 카메라를 통해 플랫폼의 혼잡한 군중을 실시간으로 추적하고 계수하기 위해, 물리 법칙을 기반으로 한 3D 운동 추론과 검출 및 외관 정보를 통합한 'Phys-3D' 프레임워크를 제안하여 기존 방법의 한계를 극복하고 높은 정확도를 달성함을 보여줍니다.

Bin Zeng, Johannes Künzel, Anna Hilsmann + 1 more2026-02-27💻 cs

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

이 논문은 의료 이미지 분류 모델의 효율성과 알고리즘적 공정성을 동시에 최적화하기 위해, 그룹별 중요도 분석과 비트 인식 양자화 기법을 결합한 'FairQuant'라는 새로운 혼합 정밀도 양자화 프레임워크를 제안하고 그 유효성을 검증합니다.

Thomas Woergaard, Raghavendra Selvan2026-02-27🤖 cs.LG

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

이 논문은 불규칙한 장 구조와 다양한 임상 속성 제어의 어려움을 극복하고 데이터 부족을 해결하기 위해 시간적 일관성과 내용 인식을 통합한 'ColoDiff'라는 확산 기반 프레임워크를 제안하여 고품질의 대장내시경 영상을 생성하고 진단 등 하류 작업을 지원함을 보여줍니다.

Junhu Fu, Shuyu Liang, Wutong Li + 9 more2026-02-27🤖 cs.AI

Through BrokenEyes: How Eye Disorders Impact Face Detection?

이 논문은 BrokenEyes 시스템을 활용하여 다섯 가지 주요 안과 질환이 딥러닝 모델의 특징 표현에 미치는 영향을 시뮬레이션하고, 활성화 에너지 및 코사인 유사도 등의 지표를 통해 질환별 시각 왜곡이 신경 처리에 어떻게 영향을 주는지 분석했습니다.

Prottay Kumar Adhikary2026-02-27💻 cs

Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction

이 논문은 기존 플러그 앤 플레이 확산 모델 기반의 의료 영상 재구성에서 발생하는 편향과 환각 문제를 해결하기 위해, 적분 피드백을 제공하는 이중 변수 결합 기법과 구조화된 잔여 노이즈를 통계적으로 정합된 가우스 노이즈로 변환하는 스펙트럼 동질화 기법을 제안하여, 편향과 환각의 트레이드오프를 극복하고 정밀한 재구성을 가능하게 합니다.

Chenhe Du, Xuanyu Tian, Qing Wu + 4 more2026-02-27⚡ eess

Multidimensional Task Learning: A Unified Tensor Framework for Computer Vision Tasks

이 논문은 행렬 기반 접근법의 한계를 극복하고 텐서 곱을 직접 활용하는 일반화 아인슈타인 MLP(GE-MLP) 를 기반으로 분류, 분할, 검출 등 다양한 컴퓨터 비전 작업을 통합된 다차원 작업 학습 (MTL) 프레임워크로 수학적으로 정립하고 있음을 제시합니다.

Alaa El Ichi, Khalide Jbilou2026-02-27🔢 math

UniScale: Unified Scale-Aware 3D Reconstruction for Multi-View Understanding via Prior Injection for Robotic Perception

이 논문은 사전 지식을 모듈식으로 통합하여 카메라 내부 파라미터와 외부 파라미터, 깊이 및 포인트 맵, 그리고 장면의 절대 크기를 단일 네트워크로 추정함으로써 로봇 비전 응용을 위한 강력하고 확장 가능한 3D 재구성 프레임워크인 'UniScale'을 제안합니다.

Mohammad Mahdavian, Gordon Tan, Binbin Xu + 3 more2026-02-27💻 cs

Large Multimodal Models as General In-Context Classifiers

이 논문은 대규모 멀티모달 모델 (LMM) 이 제로샷 성능은 CLIP 기반 모델보다 낮을지라도 소수의 컨텍스트 예시를 활용하면 분류 성능을 크게 향상시킬 수 있음을 입증하고, 개방형 세계 설정에서 컨텍스트 정보의 불완전성을 해결하기 위해 제안된 훈련 없는 CIRCLE 방법을 통해 LMM 이 범용 분류기로서의 잠재력을 보여준다고 주장합니다.

Marco Garosi, Matteo Farina, Alessandro Conti + 2 more2026-02-27💻 cs

Skarimva: Skeleton-based Action Recognition is a Multi-view Application

이 논문은 다중 카메라 뷰를 활용하여 더 정확한 3D 골격 데이터를 생성함으로써 최첨단 동작 인식 모델의 성능을 크게 향상시킬 수 있음을 입증하고, 향후 연구에서 다중 뷰 설정을 표준으로 삼아야 한다고 주장합니다.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-02-27💻 cs

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

이 논문은 고해상도 GUI 에이전트의 비효율성을 해결하기 위해 시간적 적응 해상도 (TAR) 와 계층적 구조 인식 가지치기 (SSP) 를 결합하여 학습 없이도 성능 저하 없이 연산량과 지연 시간을 획기적으로 줄이는 'GUIPruner' 프레임워크를 제안합니다.

Zhou Xu, Bowen Zhou, Qi Wang + 2 more2026-02-27🤖 cs.AI

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

이 논문은 전문가 시연에 의존하지 않고 위험 인식 세계 모델을 통해 다양한 시나리오에서 안전하고 일반화 가능한 자율주행 결정을 내리는 통합 프레임워크인 RaWMPC 를 제안합니다.

Jiangxin Sun, Feng Xue, Teng Long + 4 more2026-02-27🤖 cs.AI

Decomposing Private Image Generation via Coarse-to-Fine Wavelet Modeling

이 논문은 민감한 이미지의 저주파 성분에만 차분 프라이버시 (DP) 를 적용하고 고주파 세부 사항은 공개된 모델로 보강하는 '거칠게부터 정밀하게' 웨이블릿 모델링 프레임워크를 제안하여, 차분 프라이버시 하에서도 이미지 품질을 크게 향상시킨다는 점을 설명합니다.

Jasmine Bayrooti, Weiwei Kong, Natalia Ponomareva + 3 more2026-02-27💻 cs

LineGraph2Road: Structural Graph Reasoning on Line Graphs for Road Network Extraction

이 논문은 위성 영상에서 도로를 추출하기 위해 키포인트 기반의 희소 유클리드 그래프를 구성하고 이를 선 그래프 (line graph) 로 변환하여 그래프 트랜스포머를 적용함으로써 장거리 의존성과 복잡한 위상 구조를 효과적으로 포착하는 'LineGraph2Road' 프레임워크를 제안합니다.

Zhengyang Wei, Renzhi Jing, Yiyi He + 1 more2026-02-27💻 cs

PGVMS: A Prompt-Guided Unified Framework for Virtual Multiplex IHC Staining with Pathological Semantic Learning

이 논문은 H&E 이미지를 다양한 IHC 염색으로 변환하는 가상 멀티플렉스 염색의 한계를 해결하기 위해, 병리학적 시각 언어 모델을 활용한 적응형 프롬프트 유도, 단백질 인식 학습 전략 (PALS), 그리고 프로토타입 일관성 학습 전략 (PCLS) 을 통합한 PGVMS 라는 새로운 프레임워크를 제안합니다.

Fuqiang Chen, Ranran Zhang, Wanming Hu + 6 more2026-02-27💻 cs

Towards Long-Form Spatio-Temporal Video Grounding

이 논문은 긴 영상에서 불필요한 정보를 효율적으로 처리하고 정밀한 시공간적 위치 추정을 가능하게 하기 위해, 자동회귀 트랜스포머 아키텍처와 메모리 선택 전략을 도입한 'ART-STVG' 모델을 제안합니다.

Xin Gu, Bing Fan, Jiali Yao + 5 more2026-02-27💻 cs

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

이 논문은 사전 학습된 생성 모델을 활용하여 대규모 데이터셋을 효율적으로 압축하는 'ManifoldGD'를 제안하며, 계층적 군집화를 통해 추출된 IPC 중심점들의 국소 다양체 (manifold) 상에 생성 경로를 투영함으로써 모델 재학습 없이도 기존 방법들보다 우수한 다양성, 충실도 및 분류 정확도를 달성함을 보여줍니다.

Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty + 1 more2026-02-27🤖 cs.LG

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

이 논문은 RAG 를 통해 임상 지식을 통합하고 DINOv3 와 개선된 BERT 를 활용한 이중 인코더 사전 학습 전략을 제안하여, 의료 이미지와 메타데이터 간의 정밀한 정렬을 통해 기존 방법보다 뛰어난 진단 성능과 강건성을 달성하는 PRIMA 프레임워크를 소개합니다.

Yiqing Wang, Chunming He, Ming-Chen Lu + 4 more2026-02-27💻 cs

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

이 논문은 텍스트 프롬프트에 픽셀 주석이 달린 소수의 지원 이미지를 결합하고, 텍스트와 시각적 특징을 융합하는 학습 기반 검색 증강 어댑터를 도입하여, 개방 어휘 분할의 제로샷 성능과 완전 지도 학습 간의 격차를 획기적으로 줄이는 새로운 Few-shot 설정을 제안합니다.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

이 논문은 시각 - 언어 모델의 추론 능력 부재가 훈련 데이터의 보고 편향 (reporting bias) 에 기인하며, 단순한 규모 확장이 아닌 의도적인 암묵 정보 수집을 통한 데이터 큐레이션이 이러한 결함을 해결하는 핵심임을 주장합니다.

Amita Kamath, Jack Hessel, Khyathi Chandu + 3 more2026-02-27💬 cs.CL

Sensor Generalization for Adaptive Sensing in Event-based Object Detection via Joint Distribution Training

이 논문은 이벤트 카메라의 내재적 파라미터가 객체 탐지 모델 성능에 미치는 영향을 심층 분석하고, 이를 통해 센서 간 일반화 능력을 갖춘 적응형 감지 모델을 구축하기 위한 결합 분포 학습 기법을 제시합니다.

Aheli Saha, René Schuster, Didier Stricker2026-02-27💻 cs

← 이전 다음 →