cs.CV 편의 논문 | Gist.Science

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

이 논문은 보조 MRI 모달리티를 활용하여 해부학적 정확도를 높이고 환각을 줄이면서도 기존 확산 모델 대비 80% 적은 샘플링 단계로 고품질 제로샷 MRI 재구성을 가능하게 하는 'MPFlow' 프레임워크를 제안합니다.

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

본 논문은 텍스트 내 개체 언급 순서가 이미지 생성 모델의 공간 배치에 과도하게 영향을 미치는 '순서 - 공간 편향 (OTS)' 현상을 규명하고, 이를 측정하는 벤치마크를 제안하며 데이터 기반의 원인을 분석하여 생성 품질을 유지하면서 편향을 완화하는 해결책을 제시합니다.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

이 논문은 DINOv3 기반의 일반 시각 특징과 Swin 모델의 학습된 특징을 융합하여 투명 유리 표면 분할의 어려움을 해결하고, Mask2Former 디코더를 통해 여러 데이터셋에서 기존 최첨단 방법보다 우수한 정확도와 추론 속도를 달성하는 새로운 아키텍처를 제안합니다.

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

이 논문은 이미지에서 학습한 품질 지식을 무감독 도메인 적응을 통해 포인트 클라우드에 전이하는 새로운 프레임워크인 QD-PCQA 를 제안하며, 순위 가중 조건 정렬과 품질 기반 특징 증강 전략을 통해 무참조 포인트 클라우드 품질 평가의 일반화 성능을 획기적으로 개선합니다.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

이 논문은 CUT3R 기반의 공간 인코더와 SigLIP 의 의미적 특징을 융합하고 잠재 예측 표현 학습을 통해 환경 역학을 모델링함으로써, 장기적 견고성과 실시간 성능을 동시에 확보한 통합 스트리밍 비전 - 언어 항법 에이전트 'PROSPECT'를 제안합니다.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

DAGE 는 저해상도 스트림을 통해 전역적 일관성과 카메라 포즈를 효율적으로 추정하고 고해상도 스트림으로 세밀한 구조를 보존하며 경량 어댑터로 두 스트림을 융합하는 듀얼 스트림 트랜스포머 아키텍처를 제안하여, 고해상도 비디오 및 다중 뷰 입력에 대한 기하학적 추정 및 재구성 성능을 획기적으로 개선했습니다.

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

이 논문은 전체 슬라이드 이미지 (WSI) 의 공간적 연속성을 유지하고 해상도 변화에 강인한 병변 분할을 위해 패치 기반 방식을 배제하고 다중 해상도 해시 그리드 인코딩과 공유 INR 디코더를 활용한 새로운 패치 없는 프레임워크인 WSI-INR 을 제안합니다.

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

이 논문은 폐쇄된 분류 체계를 넘어 오픈셋 환경에서 전문가처럼 시각적 증거와 외부 지식을 결합하여 추론하는 'KFRA'라는 새로운 에이전트 프레임워크를 제안하고, 이를 평가하기 위한 FGExpertBench 벤치마크를 통해 기존 모델 대비 뛰어난 성능과 해석 가능성을 입증합니다.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

이 논문은 LiDAR 데이터를 기하학적 프롬프트로 활용하고 시공간 디코더를 통해 다중 뷰 스테레오의 깊이 추정 정확도, 일관성 및 일반화 성능을 획기적으로 개선한 자율주행용 새로운 프레임워크 'DriveMVS'를 제안합니다.

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

이 논문은 복잡한 배경에서의 소형 객체 검출 성능을 향상시키기 위해 잔류 하르 웨이블릿 다운샘플링, 글로벌 관계 모델링, 교차 스케일 하이브리드 어텐션, 그리고 센터 보조 손실 함수를 통합한 새로운 프레임워크를 제안하고 RGBT-Tiny 벤치마크에서 기존 최첨단 방법들을 능가하는 성능을 입증했습니다.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

이 논문은 추가 학습 없이 각 토큰의 동적 특성에 맞춰 가장 오차가 적은 예측기를 선택하는 '토큰 적응형 예측기 (TAP)' 프레임워크를 제안함으로써, 확산 모델의 추론 속도를 획기적으로 개선하면서도 생성 품질을 유지하는 방법을 제시합니다.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

이 논문은 장기적 테스트 시간 적응 (TTA) 에서 발생하는 모델 붕괴 문제를 해결하기 위해, 언제 어디서 리셋할지 동적으로 결정하는 적응형 선택적 리셋 (ASR) 방식과 필수 지식 복구를 위한 정규화 기법 등을 제안하여 적응 성능을 크게 향상시켰음을 보여줍니다.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

Separators in Enhancing Autoregressive Pretraining for Vision Mamba

이 논문은 Vision Mamba 의 자동회귀 사전학습을 위해 이미지 시작 지점을 구분하는 새로운 'STAR' 분리자 기법을 도입하여 입력 시퀀스 길이를 4 배 확장하고, 이를 통해 ImageNet-1k 에서 83.5% 의 높은 정확도를 달성하여 장거리 의존성 활용을 극대화했다고 요약할 수 있습니다.

Hanpeng Liu, Zidan Wang, Shuoxi Zhang + 2 more2026-03-05🤖 cs.AI

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

이 논문은 빛의 흡수 및 산란으로 인한 시각적 열화 문제를 해결하기 위해 YOLOv10 아키텍처에 다단계 적응적 향상 모듈, 이중 풀링 순차 어텐션 메커니즘, 그리고 FGIoU 손실 함수를 통합하여, 제한된 자원을 가진 환경에서도 높은 정확도와 실시간 성능을 동시에 달성하는 경량 수중 객체 탐지 프레임워크를 제안합니다.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

이 논문은 데이터 증류 과정에서 발생하는 저장 및 통신 오버헤드를 해결하기 위해 벡터 양자화 오토인코더 (VQAE) 를 도입하여 소프트 라벨을 압축함으로써 ImageNet-1K 와 같은 대규모 데이터셋에서도 성능 저하 없이 저장 공간을 획기적으로 줄이는 방법을 제안합니다.

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

이 논문은 기존에 학습된 개념과 유사한 의미의 미학습 개념 간의 구조적 일관성을 활용하여, 가시적 개념에서 비가시적 개념으로의 일반화를 가능하게 하는 '구조 인식 프롬프트 적응 (SPA)' 방법을 제안하여 개방형 어휘 구성 제로샷 학습의 성능을 크게 향상시킵니다.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

이 논문은 멀티모달 추론 모델의 콜드스타트 단계에서 시각적 주의를 유도하는 새로운 프레임워크인 AVAR 을 제안하여, 기존 방식의 한계를 극복하고 다양한 벤치마크에서 추론 성능을 크게 향상시켰음을 보여줍니다.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Universal Pansharpening Foundation Model

이 논문은 다양한 위성 센서와 장면에서 뛰어난 일반화 능력을 보이는 범용 팬샤프닝 기초 모델인 FoundPS 를 제안하고, 이를 평가하기 위한 대규모 벤치마크 PSBench 를 구축하여 기존 방법들의 한계를 극복하고 있음을 보여줍니다.

Hebaixu Wang, Jing Zhang, Haonan Guo + 4 more2026-03-05💻 cs

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

이 논문은 이미지 복원 모델에서 발생하는 위상 상관관계와 편향된 손상 패턴 추정을 해결하기 위해 웨이블릿 기반의 인과적 교란 및 해리 메커니즘을 도입한 CWP-Net 을 제안하여 다양한 손상 유형을 통합적으로 복원하는 성능을 입증합니다.

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

이 논문은 인간이 노이즈 환경에서 시각적 근거를 효과적으로 식별하고 추론하는 방식을 모방하여, 추가적인 학습 없이 계층적 스캐닝, 리포커싱, 증거 강화 추론을 결합한 'DeepScan' 프레임워크를 제안함으로써 대규모 시각 - 언어 모델의 시각적 근거 기반 추론 능력을 획기적으로 향상시킵니다.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

← 이전 다음 →