cs.CV 편의 논문 | Gist.Science

Toward Early Quality Assessment of Text-to-Image Diffusion Models

이 논문은 생성 과정 초기 단계의 중간 활성화 값을 분석하여 최종 이미지 품질을 예측하고 불필요한 시드 생성을 조기에 중단함으로써, 텍스트 - 이미지 확산 모델의 샘플링 비용을 60% 이상 절감하면서도 유지된 이미지의 품질을 향상시키는 'Probe-Select'라는 모듈을 제안합니다.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Generalized non-exponential Gaussian splatting

이 논문은 3D 가우스 스플래팅 (3DGS) 을 비지수적 방사 전달 모델로 일반화하여 복잡한 실제 장면에서 오버드로우를 크게 줄이고 렌더링 속도를 최대 4 배까지 향상시키면서도 기존과 유사한 화질을 유지하는 새로운 변형들을 제안합니다.

Sébastien Speierer, Adrian Jarabo2026-03-05💻 cs

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

이 논문은 복잡한 쿼리에 대한 논리적 추론을 위해 생성적 추론과 판별적 표현 학습을 통합하고, 추론 과정을 압축하여 임베딩하는 TRACE 프레임워크와 이를 학습하기 위한 대규모 데이터셋 M-BEIR-CoT 를 제안함으로써 범용 멀티모달 검색의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

이 논문은 CLIP 모델의 일반화 능력을 유지하면서 패치별 특성에 맞춰 동적으로 적응하는 MoECLIP 아키텍처를 제안하여, 기존 방법의 패치 무관성 한계를 극복하고 다양한 산업 및 의료 분야에서 제로샷 이상 탐지 성능을 획기적으로 개선했음을 보여줍니다.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

이 논문은 저대비 의료 영상 분할에서 스킵 연결을 통한 잡음 전파 문제를 해결하기 위해 디코더 조건부 희소성 제약을 도입하여 노이즈가 있는 특징을 명시적으로 제거하는 'ProSMA-UNet'을 제안하고, 이를 통해 다양한 2D 및 3D 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Specificity-aware reinforcement learning for fine-grained open-world classification

이 논문은 오픈 월드 환경에서 세밀한 이미지 분류의 정확성과 구체성을 동시에 향상시키기 위해, 검증 기반의 동적 보상 신호를 도입한 'SpeciaRL'이라는 새로운 구체성 인식 강화 학습 프레임워크를 제안합니다.

Samuele Angheben, Davide Berasi, Alessandro Conti + 2 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

이 논문은 10 년간 인공지능의 발전으로 등장한 딥 스케치 기반 3D 모델링 (DS-3DM) 의 최신 동향을 IMO 프레임워크를 기반으로 한 새로운 설계 공간 'MORPHEUS'를 통해 종합적으로 조사하고, 컴퓨터 비전·그래픽스·HCI 간 학제간 연구 기회와 사용자 의도에 부합하는 제어 가능성 및 정보 풍부한 출력의 필요성을 제시합니다.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

이 논문은 시각적 데이터셋 대신 중국어와 그리스어의 표의성 (iconicity) 을 가진 수어 데이터를 타겟 언어인 아랍어와 플랑드르어로 전이 학습하여 적용했을 때 각각 7.02% 와 1.07% 의 인식 성능 향상을 확인함으로써 표의성 기반 전이 학습의 유효성을 입증했습니다.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

이 논문은 DeepSeek 의 매니폴드 제약 하이퍼커넥션 (mHC) 프레임워크를 기반으로 클러스터링 가이드 Mamba 모듈, 해석 가능한 잔여 행렬 구현, 그리고 물리적으로 의미 있는 스펙트럼 그룹화를 통해 초분광 이미지 분류의 정확성과 해석 가능성을 동시에 향상시킨 mHC-HSI 모델을 제안합니다.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

이 논문은 텍스트만 강화학습한 모델이 다중모달 의료 VQA 에서 정확도는 높일 수 있으나 시각적 근거를 무시하는 '단축기'를 활용한다는 사실을 반사적 평가 프레임워크를 통해 규명하고, 단순 정확도 지표가 아닌 시각 의존성을 측정하는 새로운 평가 프로토콜의 필요성을 강조합니다.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

이 논문은 실시간 스트리밍 입력에서 저지연 추론과 자발적 응답 결정, 콘텐츠 품질 및 양 제어를 해결하여 인간과 같은 AI 동반자를 구현하는 프로액티브 비디오 LLM 프레임워크 'Proact-VL'과 이를 평가하는 'Live Gaming Benchmark'를 제안합니다.

Weicai Yan, Yuhong Dai, Qi Ran + 6 more2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

이 논문은 자율주행 차량의 온라인 HD 맵 구축 시 로컬라이제이션 오차 (위치 및 헤딩 각도) 가 생성된 맵 레이블의 품질과 모델 성능에 미치는 부정적 영향을 분석하고, 거리 기반 평가 지표를 제안하여 오차의 영향이 비선형적으로 증가하며 헤딩 각도 오차가 더 치명적임을 규명했습니다.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Beyond Pixel Histories: World Models with Persistent 3D State

이 논문은 기존 비디오 생성 모델의 3D 일관성과 공간 기억 한계를 해결하기 위해 잠재 3D 장면의 진화를 시뮬레이션하여 장기적인 안정성과 3D 공간 기반 정밀 제어를 가능하게 하는 새로운 세계 모델 'PERSIST'를 제안합니다.

Samuel Garcin, Thomas Walker, Steven McDonagh + 5 more2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

본 논문은 비디오 확산 모델에서 물리적으로 일관된 4D 세계 표현을 학습하기 위해 3 단계 훈련 패러다임 (대규모 의사지도 사전 학습, 시뮬레이션 기반 지도 미세 조정, 시뮬레이션 기반 강화 학습) 을 도입하고, 기존 외관 기반 모델보다 정교한 물리 일관성을 달성하는 'Phys4D'를 제안합니다.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

본 논문은 Sentinel-1, RCM, AMSR2 데이터를 융합하고 지리적 가중 약지도 학습 손실 함수와 베이지안 고해상도 트랜스포머를 도입하여 200m 해상도의 전 북극 해빙 농도 지도 작성 및 불확실성 정량화를 수행하는 새로운 접근법을 제시합니다.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

← 이전 다음 →

cs.CV