cs.CV 편의 논문 | Gist.Science

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

이 논문은 제한된 공개 데이터로 인한 간 분할의 어려움을 해결하기 위해, CT 데이터를 소스로 활용하고 마진 불일치 불일치 (MDD) 를 기반으로 한 새로운 비지도 도메인 적응 프레임워크를 제안하여 개입 방사선학의 CBCT 영상에서 간 분할 성능을 획기적으로 향상시켰음을 보여줍니다.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro Gori2026-03-11💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

이 논문은 undersampled k-space 데이터에서 직접 심장의 생리학적 라벨을 추출하는 'k-MTR' 프레임워크를 제안하여, 기존 '재구성 후 분석' 방식의 한계를 극복하고 다양한 심장 MRI 분석 작업에서 최첨단 성능을 달성함을 보여줍니다.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen Pan2026-03-11🤖 cs.AI

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

이 논문은 전문가와 비전문가 간의 진단 불일치를 Whole Slide Difficulty(WSD)로 정의하고, 이를 다중 작업 학습 및 가중 분류 손실 기법을 통해 전립선암 Gleason 등급 분류 (특히 고등급) 의 정확도를 향상시키는 새로운 접근법을 제안합니다.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

이 논문은 의미적, 인스턴스, 픽셀 수준의 세 가지 데이터 세분성을 명시적으로 학습하는 계층적 구조와 점진적 마스킹 커리큘럼을 통해 대비 학습과 마스킹 이미지 모델링 간의 긴장 관계를 해결하고 더 강력하고 일반화 가능한 시각 표현을 학습하는 C2FMAE 를 제안합니다.

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin Chen2026-03-11🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

이 논문은 가려진 영역을 포함한 국소 이동 가능 영역을 예측하기 위해 시각 - 언어 모델에 공간 단서를 주입하고 깊이 기반 특징을 융합하는 BEACON 을 제안하여, 가려진 목표 위치가 있는 환경에서 기존 이미지 공간 기반 방법보다 이동성 예측 정확도를 크게 향상시킨다고 설명합니다.

Xinyu Gao, Gang Chen, Javier Alonso-Mora2026-03-11🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

이 논문은 예측된 카메라 포즈의 오차를 보정하기 위해 렌더링 및 비교 (Render-and-Compare) 모듈을 도입하고, 긴 시퀀스 처리를 위해 하이브리드 KV 캐시 압축 전략을 적용하여 포즈 유무 및 카메라 내부 파라미터 유무에 관계없이 온라인 신관 합성에서 최첨단 성능을 달성하는 오토레거시 피드포워드 가우스 스플래팅 모델인 ReCoSplat 을 제안합니다.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

이 논문은 기존 초과완전 표현 (superposition) 이론이 상관관계를 고려하지 않은 이상적인 가정에 기반하고 있음을 지적하고, 실제 데이터의 상관관계가 간섭을 단순한 노이즈가 아닌 구성적 요소로 활용하여 의미적 클러스터와 순환 구조를 자연스럽게 형성한다는 'Bag-of-Words Superposition (BOWS)' 모델을 통해 이를 설명합니다.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

이 논문은 미러링 현미경 설계에 필요한 전문 지식과 창의성을 보완하기 위해 제안된 '미분 가능 현미경 ( $\partial\mu$ )' 프레임워크를 통해 데이터 기반의 위상 재현 현미경 설계를 성공적으로 구현하고 실험적으로 검증했음을 보여줍니다.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage2026-03-10🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

이 논문은 도메인 레이블 없이도 불확실성 기반의 범주형 판별자와 저수준 특징 증강을 통해 $P(Z|Y)$ 와 $P(Y|Z)$ 를 상호 조건부로 정렬하는 새로운 메커니즘을 제안함으로써, 레이블 분포 편이와 불균형이 존재하는 블렌디드 타겟 도메인 적응 (BTDA) 의 성능을 기존 최첨단 방법보다 크게 향상시킵니다.

Pengcheng Xu, Boyu Wang, Charles Ling2026-03-10💻 cs

altiro3D: Scene representation from single image and novel view synthesis

이 논문은 단일 RGB 이미지나 평면 비디오에서 MiDaS 깊이 추정, OpenCV 및 Telea 인페인팅, 그리고 DIBR 알고리즘을 활용하여 다중 시점의 가상 이미지를 생성하고 Quilt 콜라주나 자유 시점 LCD 디스플레이에서 현실적인 3D 경험을 제공하는 오픈소스 라이브러리 'altiro3D'를 소개합니다.

E. Canessa, L. Tenze2026-03-10💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

이 논문은 조명 및 촬영 각도 변화에 따른 3D 기하학적 구조의 중요성을 강조하며, Play-Doh 모델을 활용한 대규모 PD-REAL 데이터셋과 다중 스케일 증류 기반의 멀티모달 이상 탐지 프레임워크를 제안합니다.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

이 논문은 카메라 변이가 Jaccard 거리의 신뢰성에 부정적인 영향을 미친다는 문제를 해결하기 위해, 카메라 정보를 활용하여 관련 이웃의 신뢰성을 높이는 새로운 '카메라 인식 Jaccard(CA-Jaccard)' 거리를 제안하고 Person Re-identification 성능을 향상시켰습니다.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

이 논문은 복잡한 수치 및 공간 추론을 요구하는 텍스트-이미지 생성의 한계를 극복하기 위해, 레이아웃 예측과 이미지 생성 단계를 분할하여 경량 LLM 도 정밀한 레이아웃을 생성하고 객체를 난이도 순서로 합성하는 'DivCon' 방법을 제안하고, 이를 통해 HRS 및 NSR-1K 벤치마크에서 기존 방법보다 우수한 성능을 입증했습니다.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

이 논문은 딥페이크 생성 및 탐지 기술의 최신 동향을 포괄적으로 검토하고, 주요 하위 분야별 대표 방법론을 벤치마크하여 향후 연구 방향과 과제를 제시합니다.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

이 논문은 기존 얼굴 인식 모델이 고질적 한계를 보이는 실제적인 어려움 (큰 속성 차이, 작은 속성 차이, 유사한 외모) 을 해결하기 위해 인위적 화질 저하 없이 고품질로 구성된 '골디락스' 수준의 새로운 테스트셋 (Hadrian, Eclipse, ND-Twins) 을 제안하고 있습니다.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

이 논문은 소수 샷 미세 조정 중 확산 모델에서 발생하는 '부패 단계'를 이론적으로 분석하고, 베이지안 신경망을 적용하여 학습 분포를 확장함으로써 이미지 충실도와 다양성을 향상시키는 방법을 제안합니다.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

이 논문은 이전 노이즈 프레임을 명시적으로 조건으로 삼아 긴 인간 동작 시퀀스를 생성하면서도 계산 비용을 줄이기 위해 정규화 흐름을 활용한 새로운 순환 확산 모델 (RDM) 을 제안합니다.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

이 논문은 사전 훈련된 CLIP 모델을 활용하여 온라인으로 시각적 프롬프트를 자동 생성 및 정제함으로써 주변 방해 요인을 억제하고 범용 객체 추적 성능을 향상시키는 새로운 'PiVOT' 메커니즘을 제안합니다.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

이 논문은 추가적인 인간 개입 없이 자기지도 학습 방식으로 객체 범주별 일반 포지션 사전 지식을 학습하여, 가려진 이미지에서도 포지션 추정 정확도를 향상시키는 'Pose Prior Learner(PPL)'를 제안합니다.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

← 이전 다음 →