cs.CV 편의 논문 | Gist.Science

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

이 논문은 전문가 시연에 의존하지 않고 위험 인식 세계 모델을 통해 다양한 시나리오에서 안전하고 일반화 가능한 자율주행 결정을 내리는 통합 프레임워크인 RaWMPC 를 제안합니다.

Jiangxin Sun, Feng Xue, Teng Long + 4 more2026-02-27🤖 cs.AI

Decomposing Private Image Generation via Coarse-to-Fine Wavelet Modeling

이 논문은 민감한 이미지의 저주파 성분에만 차분 프라이버시 (DP) 를 적용하고 고주파 세부 사항은 공개된 모델로 보강하는 '거칠게부터 정밀하게' 웨이블릿 모델링 프레임워크를 제안하여, 차분 프라이버시 하에서도 이미지 품질을 크게 향상시킨다는 점을 설명합니다.

Jasmine Bayrooti, Weiwei Kong, Natalia Ponomareva + 3 more2026-02-27💻 cs

LineGraph2Road: Structural Graph Reasoning on Line Graphs for Road Network Extraction

이 논문은 위성 영상에서 도로를 추출하기 위해 키포인트 기반의 희소 유클리드 그래프를 구성하고 이를 선 그래프 (line graph) 로 변환하여 그래프 트랜스포머를 적용함으로써 장거리 의존성과 복잡한 위상 구조를 효과적으로 포착하는 'LineGraph2Road' 프레임워크를 제안합니다.

Zhengyang Wei, Renzhi Jing, Yiyi He + 1 more2026-02-27💻 cs

PGVMS: A Prompt-Guided Unified Framework for Virtual Multiplex IHC Staining with Pathological Semantic Learning

이 논문은 H&E 이미지를 다양한 IHC 염색으로 변환하는 가상 멀티플렉스 염색의 한계를 해결하기 위해, 병리학적 시각 언어 모델을 활용한 적응형 프롬프트 유도, 단백질 인식 학습 전략 (PALS), 그리고 프로토타입 일관성 학습 전략 (PCLS) 을 통합한 PGVMS 라는 새로운 프레임워크를 제안합니다.

Fuqiang Chen, Ranran Zhang, Wanming Hu + 6 more2026-02-27💻 cs

Towards Long-Form Spatio-Temporal Video Grounding

이 논문은 긴 영상에서 불필요한 정보를 효율적으로 처리하고 정밀한 시공간적 위치 추정을 가능하게 하기 위해, 자동회귀 트랜스포머 아키텍처와 메모리 선택 전략을 도입한 'ART-STVG' 모델을 제안합니다.

Xin Gu, Bing Fan, Jiali Yao + 5 more2026-02-27💻 cs

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

이 논문은 사전 학습된 생성 모델을 활용하여 대규모 데이터셋을 효율적으로 압축하는 'ManifoldGD'를 제안하며, 계층적 군집화를 통해 추출된 IPC 중심점들의 국소 다양체 (manifold) 상에 생성 경로를 투영함으로써 모델 재학습 없이도 기존 방법들보다 우수한 다양성, 충실도 및 분류 정확도를 달성함을 보여줍니다.

Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty + 1 more2026-02-27🤖 cs.LG

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

이 논문은 RAG 를 통해 임상 지식을 통합하고 DINOv3 와 개선된 BERT 를 활용한 이중 인코더 사전 학습 전략을 제안하여, 의료 이미지와 메타데이터 간의 정밀한 정렬을 통해 기존 방법보다 뛰어난 진단 성능과 강건성을 달성하는 PRIMA 프레임워크를 소개합니다.

Yiqing Wang, Chunming He, Ming-Chen Lu + 4 more2026-02-27💻 cs

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

이 논문은 텍스트 프롬프트에 픽셀 주석이 달린 소수의 지원 이미지를 결합하고, 텍스트와 시각적 특징을 융합하는 학습 기반 검색 증강 어댑터를 도입하여, 개방 어휘 분할의 제로샷 성능과 완전 지도 학습 간의 격차를 획기적으로 줄이는 새로운 Few-shot 설정을 제안합니다.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

이 논문은 시각 - 언어 모델의 추론 능력 부재가 훈련 데이터의 보고 편향 (reporting bias) 에 기인하며, 단순한 규모 확장이 아닌 의도적인 암묵 정보 수집을 통한 데이터 큐레이션이 이러한 결함을 해결하는 핵심임을 주장합니다.

Amita Kamath, Jack Hessel, Khyathi Chandu + 3 more2026-02-27💬 cs.CL

Sensor Generalization for Adaptive Sensing in Event-based Object Detection via Joint Distribution Training

이 논문은 이벤트 카메라의 내재적 파라미터가 객체 탐지 모델 성능에 미치는 영향을 심층 분석하고, 이를 통해 센서 간 일반화 능력을 갖춘 적응형 감지 모델을 구축하기 위한 결합 분포 학습 기법을 제시합니다.

Aheli Saha, René Schuster, Didier Stricker2026-02-27💻 cs

A Dataset is Worth 1 MB

이 논문은 사전에 로드된 대규모 참조 데이터셋의 이미지 레이블만 전송하여 픽셀 데이터 전송을 완전히 제거하고, 1MB 미만의 초소형 페이로드로도 높은 분류 정확도를 유지하는 새로운 데이터셋 서비스 방법인 'PLADA'를 제안합니다.

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen2026-02-27🤖 cs.LG

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

이 논문은 가시성 없는 영역을 투명하게 표현하는 3D 장면 표현 (OSCR) 과 마스크 자기 주의를 도입하여, 텍스트-이미지 생성에서 다중 객체의 3D 배치와 깊이 일관성을 유지하면서 정확한 가림 (occlusion) 처리를 가능하게 하는 'SeeThrough3D' 모델을 제안합니다.

Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat + 2 more2026-02-27🤖 cs.AI

VGG-T $^3$ : Offline Feed-Forward 3D Reconstruction at Scale

이 논문은 입력 이미지 수에 비례하여 계산 및 메모리 요구 사항이 선형적으로 증가하도록 키 - 값 (KV) 공간 표현을 고정 크기의 MLP 로 응축하는 'VGG-T $^3$ '를 제안하여, 기존 오프라인 피드 - 포워드 3D 재구성 방법의 성능 한계를 극복하고 대규모 장면 재구성과 시각적 위치 추정에서 뛰어난 효율성과 정확성을 달성했습니다.

Sven Elflein, Ruilong Li, Sérgio Agostinho + 4 more2026-02-27💻 cs

MediX-R1: Open Ended Medical Reinforcement Learning

이 논문은 그룹 기반 강화학습과 정밀한 보상 신호를 활용하여 의료 다중 모달 대규모 언어 모델이 객관식 형식을 넘어 임상적으로 신뢰할 수 있는 자유형 답변을 생성할 수 있도록 한 'MediX-R1' 프레임워크를 제안하고, 이를 통해 기존 오픈소스 베이스라인을 능가하는 성능을 입증했습니다.

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed + 5 more2026-02-27💻 cs

Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise

이 논문은 이미지와 노이즈를 동시에 추정하고 반원호 각도로 재매개변수화하여 역확산 과정의 안정성과 고차 ODE 솔버 적용을 가능하게 함으로써 생성 속도와 품질을 동시에 향상시키는 새로운 확산 모델을 제안합니다.

Zhenkai Zhang, Krista A. Ehinger, Tom Drummond2026-02-26🤖 cs.AI

Real-Time Motion Detection Using Dynamic Mode Decomposition

이 논문은 동적 모드 분해 (DMD) 를 기반으로 비디오 시퀀스의 고유값 변화를 분석하여 실시간 보안 영상에서 전경 움직임을 효과적으로 감지하는 해석 가능한 알고리즘을 제안하고, 다양한 실제 조건에서 성능을 검증합니다.

Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger2026-02-26💻 cs

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning

이 논문은 딥러닝 기반 수중 이미지 향상 (UIE) 기술의 물리 모델, 알고리즘 분류, 평가 지표 및 최신 기법들의 정량적·정성적 비교 분석을 체계적으로 제공하여 향후 연구 방향을 제시합니다.

Xiaofeng Cong, Yu Zhao, Jie Gui + 2 more2026-02-26💻 cs

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

이 논문은 기존 대규모 시각 - 언어 모델 (LVLM) 환각 평가 벤치마크의 신뢰성과 타당성 문제를 지적하고, 이를 측정하는 HQM 프레임워크와 고품질 벤치마크인 HQH 를 제안하여 모델의 심각한 환각 현상을 규명하고 향후 개선 방향을 제시합니다.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

PoseAdapt: Sustainable Human Pose Estimation via Continual Learning Benchmarks and Toolkit

PoseAdapt 은 새로운 작업에 맞춰 기존 모델을 재학습하지 않고도 지속 가능한 인간 포즈 추정을 가능하게 하는 오픈 소스 continual learning 프레임워크 및 벤치마크 세트를 제안합니다.

Muhammad Saif Ullah Khan, Didier Stricker2026-02-26💻 cs

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

이 논문은 대규모 언어 모델 (LLM) 의 뛰어난 언어 이해 능력을 CLIP 에 효율적으로 통합하여 긴 캡션 처리 능력을 향상시키고, 대규모 재학습 없이 다양한 다운스트림 작업에서 최첨단 성능을 달성하는 새로운 미세 조정 프레임워크 'LLM2CLIP'을 제안합니다.

Weiquan Huang, Aoqi Wu, Yifan Yang + 11 more2026-02-26💬 cs.CL

← 이전 다음 →

cs.CV