cs.CV 편의 논문 | Gist.Science

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

본 논문은 원격 탐사 이미지 분할을 위한 분산 환경에서 사전 훈련된 비전 기반 모델의 미세 조정 시 불확실성을 정량화하고 적응적 집계 전략을 통해 모델의 신뢰성과 성능을 향상시키는 'FedEU' 프레임워크를 제안합니다.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

이 논문은 확산 기반 데이터 증류에서 텍스트 프롬프트의 과도한 지배를 완화하고 시각적 특징을 보존하기 위해 인코더와 생성 백본 간에 텍스트 및 시각 임베딩을 정렬하는 '초기 시각 - 언어 융합 (EVLF)' 방법을 제안합니다.

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

이 논문은 LiDAR 와 카메라 데이터의 결손으로 인한 성능 저하를 해결하기 위해, 다중 모달 BEV 특징을 모달리티 불변 및 모달리티 특정 부분으로 분리한 후 다양한 결손 유형에 대응하는 세 가지 전문가 네트워크로 재결합하여 적응적으로 융합하는 '다중 모달 분리 및 재결합 네트워크 (Multi-Modal Decouple and Recouple Network)'를 제안하고, 이를 통해 결손 및 청정 데이터 모두에서 기존 모델보다 우수한 3D 객체 탐지 성능을 입증했습니다.

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

RobustSCI: Beyond Reconstruction to Restoration for Snapshot Compressive Imaging under Real-World Degradations

이 논문은 실제 환경의 열화 (모션 블러 및 저조도) 가 포함된 스냅샷 압축 영상 (SCI) 데이터에서 원본 장면을 복원하는 새로운 과제를 제시하고, 이를 위해 대규모 벤치마크를 구축하고 열화 제거와 주파수 증강을 동시에 수행하는 'RobustSCI' 네트워크를 제안하여 기존 재구성 중심의 한계를 극복한 연구입니다.

Hao Wang, Yuanfan Li, Qi Zhou, Zhankuo Xu, Jiong Ni, Xin Yuan2026-03-10💻 cs

RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection

이 논문은 LiDAR 의 깊이 관련 없는 정보 간섭을 줄이고 카메라에서 물체까지의 광선 (ray) 을 따라 깊이 지식을 증류하는 'RayD3D'를 제안하여, 다양한 데이터 손상 상황에서도 다중 뷰 3D 객체 감지 모델의 강건성을 크게 향상시킨다는 내용입니다.

Rui Ding, Zhaonian Kuang, Zongwei Zhou, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

이 논문은 문서 이해를 위한 멀티모달 대형 언어 모델의 추론 과정에 레이아웃 인지와 증거 기반의 단계적 추론을 체계적으로 통합한 'DocCogito' 프레임워크를 제안하고, 다양한 벤치마크에서 최첨단 성능을 입증합니다.

Yuchuan Wu, Minghan Zhuo, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue2026-03-10💻 cs

AMR-CCR: Anchored Modular Retrieval for Continual Chinese Character Recognition

이 논문은 고대 한자 인식을 위한 새로운 continual 학습 설정을 정의하고, 사전 확장 방식의 딕셔너리 매칭과 스크립트 조건부 주입 모듈을 통해 지속적인 클래스 증가와 다양한 서체 변이를 효과적으로 처리하는 'AMR-CCR' 프레임워크와 이를 평가하기 위한 'EvoCON' 벤치마크를 제안합니다.

Yuchuan Wu, Yinglian Zhu, Haiyang Yu, Ke Niu, Bin Li, Xiangyang Xue2026-03-10💻 cs

High-Fidelity Medical Shape Generation via Skeletal Latent Diffusion

이 논문은 해부학적 구조의 기하학적 복잡성과 위상적 변이성을 해결하기 위해 구조적 사전 지식을 명시적으로 통합한 골격 잠재 확산 프레임워크를 제안하고, 대규모 MedSDF 데이터셋을 구축하여 기존 방법보다 우수한 재구성 및 생성 품질과 높은 계산 효율성을 달성함을 보여줍니다.

Guoqing Zhang, Jingyun Yang, Siqi Chen, Anping Zhang, Yang Li2026-03-10💻 cs

A Unified View of Drifting and Score-Based Models

이 논문은 드리프트 (drifting) 모델이 커널-부드러운 분포에 대한 스코어 매칭 (score-matching) 원리를 기반으로 한다는 것을 증명하여, 드리프트와 확산 모델 간의 관계를 정밀하게 규명하고 다양한 커널에 대한 이론적 근거를 제시합니다.

Chieh-Hsin Lai, Bac Nguyen, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Molei Tao2026-03-10🤖 cs.LG

EvolveReason: Self-Evolving Reasoning Paradigm for Explainable Deepfake Facial Image Identification

이 논문은 인간의 감사 과정을 모방하고 강화 학습 기반의 자기 진화 전략을 도입하여 딥페이크 얼굴 이미지 식별의 정확성과 설명 가능성을 동시에 향상시키는 'EvolveReason' 프레임워크를 제안합니다.

Binjia Zhou, Dawei Luo, Shuai Chen, Feng Xu, Seow, Haoyuan Li, Jiachi Wang, Jiawen Wang, Zunlei Feng, Yijun Bei2026-03-10💻 cs

SketchGraphNet: A Memory-Efficient Hybrid Graph Transformer for Large-Scale Sketch Corpora Recognition

이 논문은 자유형 스케치를 래스터 이미지나 스토크 시퀀스가 아닌 구조화된 그래프로 직접 모델링하여 대규모 스케치 코퍼스를 인식하는 메모리 효율적인 하이브리드 그래프 트랜스포머 'SketchGraphNet'을 제안하고, 이를 평가하기 위해 344 만 개의 그래프 기반 스케치로 구성된 대규모 벤치마크 'SketchGraph'를 구축하여 높은 정확도와 메모리 효율성을 입증했습니다.

Shilong Chen, Mingyuan Li, Zhaoyang Wang, Zhonglin Ye, Haixing Zhao2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

이 논문은 X-ray 영상 기반의 임의 형태를 가진 가늘고 긴 연성 로봇 (예: 가이드와이어, 카테터) 의 3D 재구성을 위해, 이미지 분할 신경망과 기하학적制약을 결합한 ACCURATE 프레임워크를 제안하여 오차 1.0mm 미만의 높은 정확도와 복잡한 변형 및 가려짐에 대한 강인성을 달성했다고 요약할 수 있습니다.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

이 논문은 UAV 이미지 내 소형 차량의 사전 크기 분포를 활용하여 절대 스케일을 추정하고 이를 위성 이미지 크롭에 적용함으로써, 실제 환경에서 발생하는 심한 스케일 불일치 문제를 해결하여 UAV-위성 교차 뷰 지오로컬라이제이션의 견고성을 크게 향상시키는 새로운 기하학적 프레임워크를 제안합니다.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

이 논문은 긴 시퀀스 생성 시 누적된 시각적 정보가 오히려 품질 저하를 유발한다는 메커니즘을 규명하고, 이를 해결하기 위해 불필요한 시각 신호를 동적으로 제거하여 장기적 일관성과 안정성을 확보하는 훈련 없는 추론 전략 'UniLongGen'을 제안합니다.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

이 논문은 단일 참조 이미지만으로 고품질의 손글씨를 생성하기 위해 스타일 인식 양자화, 대비적 학습, 그리고 잠재 공간 패치 정렬을 결합한 확산 기반 모델 'CONSTANT'를 제안하고, 다양한 언어 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증합니다.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

← 이전 다음 →

cs.CV