cs.CV 편의 논문 | Gist.Science

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

이 논문은 생성 기반 이미지 복원 기술의 실제 능력을 평가하기 위해 새로운 다차원 평가 체계를 제안하고, 기존 방법 대비 성능 격차와 '세부 정보 부족'에서 '과잉 생성 및 의미적 제어'로 전환된 새로운 실패 양상을 규명하며, 인간 지각과 부합하는 새로운 이미지 품질 평가 모델을 개발함으로써 해당 분야의 발전 방향을 제시합니다.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

이 논문은 비전 기반 모델 (VFM) 의 일반화된 지식을 활용하여 다양한 임상 환경에서의 소스 프리 비지도 도메인 적응 문제를 해결하기 위해 제안된 Tell2Adapt 프레임워크를 소개하며, 맥락 인식 프롬프트 정규화와 시각적 타당성 정제 기법을 통해 의료 영상 분할 분야에서 기존 방법론을 능가하는 성능을 입증했습니다.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

이 논문은 역사적 지도의 다양성을 반영한 새로운 벤치마크 데이터셋 'Semap'과 절차적 데이터 합성 및 다중 스케일 통합을 결합한 분할 프레임워크를 제안하여, 다양한 스타일과 규모의 이질적인 지도 컬렉션에서도 견고하고 일반화 가능한 의미 분할 성능을 달성함을 보여줍니다.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

이 논문은 저비용 의료 영상 장비에서 생성된 광간섭 단층촬영 (OCT) 의 중간 재구성 정보를 활용하여, 재구성 과정의 시간적 스케일에 기반한 모듈러 네트워크를 통해 테스트 시간에 하위 분할 모델의 정규화 계수를 적응시킴으로써 분할 성능을 향상시키고 불확실성을 추정하는 IRTTA 방법을 제안합니다.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

이 논문은 다양한 카메라 구성에서 발생하는 공간적 사전 지식의 불일치를 해결하기 위해 공간 인식 특징 변조 (SFM) 와 카메라 인식 데이터 증강 (CDA) 을 도입하여 새로운 플랫폼으로의 일반화 성능을 획기적으로 향상시킨 범용 다중 카메라 3D 객체 감지 프레임워크인 CoIn3D 를 제안합니다.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

이 논문은 실제 환경에서 발생하는 라벨의 불확실성을 해결하기 위해 CLIP 기반의 특징 추출, 의미적 마이닝, 그리고 점진적으로 정제되는 부분 라벨 손실 함수를 통합한 새로운 제로샷 학습 프레임워크인 CLIP-PZSL 을 제안하고 그 유효성을 실험을 통해 입증합니다.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

이 논문은 ABLDataset 과 4 개의 물안경 카메라를 활용하여 유럽 긴급 차량의 파란색 경광등을 94.7% 의 정확도로 탐지하고 접근 각도를 추정하는 '색상 주의 RT-DETR' 기반의 360 도 다중 카메라 시스템을 제안합니다.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

이 논문은 복잡한 배경 속에서 움직이는 적외선 소표적을 탐지하기 위해 생체 영감을 받아 움직임과 외관을 통합하는 새로운 강력한 베이스라인 모델인 MI-DETR 을 제안하고, 이를 통해 여러 벤치마크에서 기존 최첨단 방법보다 우수한 성능을 달성했음을 보여줍니다.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

이 논문은 텍스트, 이미지, 오디오 등 7 가지 모달리티가 임의로 교차된 입력을 이해하고 생성하는 'Any-to-Any' 능력을 평가하기 위해 31,000 개의 고품질 데이터셋인 UniM 벤치마크와 평가 체계를 소개하고, 이를 위한 UniMA 기반 모델을 제안하여 통합된 멀티모달 지능의 발전 방향을 제시합니다.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

이 논문은 움직이는 물체로 인한 카메라 포즈 추정의 어려움을 해결하고 실시간 적용이 가능한 효율적인 4D 동적 장면 재구성을 위해, 정적 구조와 동적 운동을 분리하는 어텐션 강제 전략과 그룹화 인과 어텐션을 활용한 새로운 피드포워드 네트워크 'MoRe'를 제안합니다.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

이 논문은 3D 및 비디오 확산 모델의 공간적·시간적 사전 지식을 직교 공간 - 시간 분포 전이 (Orster) 메커니즘을 통해 전이하는 STD-4D 확산 모델과 ST-HexPlane 을 제안하여, 대규모 4D 데이터셋의 부재라는 한계를 극복하고 고품질의 4D 생성을 가능하게 합니다.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

이 논문은 최적 생성 흐름을 기반으로 한 공리적 온-매니폴드 샤플리 가치 이론을 제시하여, 기존 방법의 오프-매니폴드 아티팩트를 해결하고 재매개변수화 불변성 및 기하학적 효율성을 보장하는 새로운 XAI 기법을 제안합니다.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

이 논문은 이진 비디오 레벨 라벨만 사용하는 약한 지도 학습의 한계를 극복하기 위해 EM 기반 최적화, 학습 불필요한 시간적 일관성 정제, 그리고 제안 간 관계를 모델링하는 그래프 기반 정제 모듈을 도입하여 GEM-TFL 을 제안하고, 완전 지도 학습 방법과 유사한 성능으로 비디오 내 조작 구간을 정확하게 국소화하는 것을 목표로 합니다.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

← 이전 다음 →

cs.CV

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

CLIP-driven Zero-shot Learning with Ambiguous Labels

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Axiomatic On-Manifold Shapley via Optimal Generative Flows

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis