cs.CV 편의 논문 | Gist.Science

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

이 논문은 T1 및 FLAIR MRI 를 기반으로 알츠하이머병 병리 표지자인 Tau-PET 을 생성하고 각 MRI 모달리티의 기여도를 해석 가능하게 분석하기 위해, 부분 정보 분해 (PID) 기반의 벡터 양자화 인코더와 구조적 에지 정보를 활용한 Half-UNet 디코더를 결합한 DisQ-HNet 프레임워크를 제안합니다.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

이 논문은 자율주행 시스템 검증을 위한 데이터 증강을 위해 지리적 조건 간 의존성을 완화하고, 다중 뷰 계층적 텍스트 설명을 제공하며, 고주파 구조적 세부 사항을 강화하는 점진적 학습 프레임워크인 DrivePTS 를 제안하여 기존 방법의 한계를 극복하고 뛰어난 사실성과 제어 가능성을 달성함을 보여줍니다.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

SwiftNDC: Fast Neural Depth Correction for High-Fidelity 3D Reconstruction

이 논문은 신경 깊이 보정 필드를 활용하여 교차 뷰 일관성을 갖춘 정밀한 깊이 지도를 생성하고, 이를 통해 3D 가우스 스플래팅의 기하학적 초기화를 개선하여 고충실도 3D 재구성과 렌더링의 속도와 정확도를 동시에 향상시키는 'SwiftNDC' 프레임워크를 제안합니다.

Kang Han, Wei Xiang, Lu Yu + 3 more2026-02-27💻 cs

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

이 논문은 이질적인 관측 노이즈가 존재하는 환경에서 데이터의 품질을 정밀하게 추정하고 가중치를 부여하는 계층적 학습 전략을 통해 기존 방법들의 한계를 극복한 새로운 '품질 인식 강건 다중 뷰 클러스터링 (QARMVC)' 프레임워크를 제안합니다.

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

이 논문은 확산 모델의 조건부 생성 성능 평가에서 기존 인간 선호도 모델이 큰 안내 스케일 (guidance scale) 에 편향되어 있다는 치명적인 평가 함정을 규명하고, 이를 해결하기 위한 공정한 평가 프레임워크 (GA-Eval) 와 새로운 방법론을 제안하여 해당 분야의 평가 패러다임 재고를 촉구합니다.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

이 논문은 희소 뷰에서 카메라 포즈나 테스트 시간 최적화 없이도 생성적 사전 지식을 활용하여 3D 가우스 스플래팅을 반복적으로 정제하는 순수 피드포워드 프레임워크인 GIFSplat 을 제안하여, 기존 방법들보다 inference 속도를 유지하면서 재구성 품질을 크게 향상시킵니다.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

Causal Motion Diffusion Models for Autoregressive Motion Generation

이 논문은 시공간적 인과성을 보장하는 잠재 공간과 인과적 확산 강제 기법을 결합한 '인과적 모션 확산 모델 (CMDM)'을 제안하여, 실시간 스트리밍 및 장기 모션 생성 시 기존 모델들의 한계를 극복하고 높은 품질과 낮은 지연 시간을 동시에 달성함을 보여줍니다.

Qing Yu, Akihisa Watanabe, Kent Fujiwara2026-02-27💻 cs

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

BetterScene 는 Stable Video Diffusion 의 잠재 공간에 시공간 등가성 정규화와 비전 기반 모델 정렬 표현을 도입하여 3D 가우시안 스플래팅과 결합함으로써, 극도로 희소한 사진에서도 일관되고 아티팩트가 없는 고품질 3D 장면 합성을 가능하게 합니다.

Yuci Han, Charles Toth, John E. Anderson + 2 more2026-02-27🤖 cs.AI

$ϕ$ -DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

이 논문은 불균형 데이터 분포로 인한 편향을 해결하고 대용량 멀티모달 모델의 지속적 학습에서 망각을 완화하기 위해 새로운 공정성 직접 선호 최적화 ( $\phi$ -DPO) 프레임워크를 제안하고, 이론적 분석과 실험을 통해 기존 방법보다 우수한 성능을 입증합니다.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

LoR-LUT: Learning Compact 3D Lookup Tables via Low-Rank Residuals

이 논문은 저랭크 잔차와 기저 LUT 를 결합한 통합 저랭크 공식인 LoR-LUT 을 제안하여 MIT-Adobe FiveK 데이터셋에서 전문가 수준의 이미지 보정 성능을 유지하면서도 모델 크기를 크게 줄이고 LoR-LUT Viewer 를 통해 해석 가능성을 높인 compact 한 3D LUT 생성 방법을 제시합니다.

Ziqi Zhao, Abhijit Mishra, Shounak Roychowdhury2026-02-27💻 cs

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

이 논문은 조건부 확산 모델에서 이질적인 조건 입력으로 인한 무거운 꼬리 분포의 기울기가 차분적 프라이버시 (DP) 학습 성능을 저하시키는 문제를 해결하기 위해, 조건 표현의 크기와 AdaLN 조절 파라미터를 동시에 제한하는 'DP-aware AdaLN-Zero'를 제안하여 DP-SGD 하에서 프라이버시 예산을 유지하면서도 imputation 및 예측 성능을 크게 향상시켰음을 보여줍니다.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery

이 논문은 다중 스펙트럼 데이터의 학습 지식을 RGB 입력만으로 추론 가능한 모델로 전이하고, 지시어 기반 LLM 과 정렬하여 위성 영상 이해의 정확도를 획기적으로 개선한 'SATtxt' 프레임워크를 제안합니다.

Minh Kha Do, Wei Xiang, Kang Han + 5 more2026-02-27💻 cs

Coded-E2LF: Coded Aperture Light Field Imaging from Events

이 논문은 코딩된 조리개와 이벤트 카메라만을 사용하여 4 차원 광장 (light field) 을 픽셀 단위의 정확도로 재구성하는 'Coded-E2LF'라는 새로운 계산 영상 기법을 제안하고, 이를 실제 하드웨어를 통해 검증한 세계 최초의 연구임을 보여줍니다.

Tomoya Tsuchida, Keita Takahashi, Chihiro Tsutake + 2 more2026-02-27💻 cs

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

본 논문은 소스 데이터를 보존하지 않고도 DETR 기반 검출기에 계층적 슬롯 인식 모듈과 클래스 유도 슬롯 대비 모듈을 통합하여 도메인 간 구조적 단서를 활용하는 최초의 소스 프리 도메인 적응 객체 탐지 프레임워크인 CGSA 를 제안하고, 이를 통해 기존 방법들을 능가하는 성능을 입증했습니다.

Boyang Dai, Zeng Fan, Zihao Qi + 2 more2026-02-27🤖 cs.AI

Instruction-based Image Editing with Planning, Reasoning, and Generation

이 논문은 지시 기반 이미지 편집의 한계를 극복하기 위해 계획, 영역 추론, 생성 단계를 포함하는 멀티모달 체인 오브 씽킹 (CoT) 프레임워크를 제안하여 복잡한 실사 이미지 편집의 품질을 향상시키는 방법을 제시합니다.

Liya Ji, Chenyang Qi, Qifeng Chen2026-02-27🤖 cs.AI

CRAG: Can 3D Generative Models Help 3D Assembly?

이 논문은 기존 3D 조립 방법의 한계를 극복하기 위해 생성과 조립을 상호 보완적인 결합 문제로 재정의하고, 누락된 기하학적 구조를 생성하며 입력 부품의 포즈를 동시에 예측하는 CRAG 모델을 제안하여 다양한 조건에서 최첨단 성능을 입증합니다.

Zeyu Jiang, Sihang Li, Siqi Tan + 8 more2026-02-27💻 cs

QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition

이 논문은 4 점 텐서 (quadrifocal tensors) 가 실용적이지 않다는 기존 통념을 깨고, Tucker 분해와 같은 기법을 활용하여 다중 카메라의 동기화를 수행하는 새로운 프레임워크를 제안하고 그 유효성을 실험을 통해 입증합니다.

Daniel Miao, Gilad Lerman, Joe Kileel2026-02-27🔢 math

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

이 논문은 주파수 영역에서 모달리티 선호도를 정량화하는 '주파수 비율 지표 (FRM)'를 기반으로, 다양한 멀티모달 모델에 플러그 앤 플레이 방식으로 적용 가능한 '다중 모달 가중치 할당 모듈 (MWAM)'을 제안하여 결손 모달리티 문제를 해결하고 모델의 강건성을 향상시킵니다.

Siqi Lu, Wanying Xu, Yongbin Zheng + 3 more2026-02-27💻 cs

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

본 논문은 Napari 기반의 오픈소스 데스크톱 애플리케이션인 'Interactive Medical-SAM2 GUI'를 소개하여, SAM2 의 전파 기능을 활용하고 3D 의료 영상을 시퀀스로 처리함으로써 3D 스캔에 대한 수동 주석의 비효율성을 해결하고 연구용 3D 의료 이미지 주석 워크플로우를 단일 로컬 파이프라인에서 효율적으로 수행할 수 있게 합니다.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

이 논문은 기존 오디오 - 비주얼 품질 평가 (AVQA) 데이터셋의 한계를 극복하기 위해 크라우드소싱 기반의 주관적 실험 프레임워크와 체계적인 데이터 준비 전략을 도입하여, 현재까지 가장 크고 다양한 1,620 개의 사용자 생성 A/V 시퀀스로 구성된 'YT-NTU-AVQ' 데이터셋을 구축하고 그 유효성을 검증했습니다.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs

← 이전 다음 →

cs.CV