DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

이 논문은 T1 및 FLAIR MRI 를 기반으로 알츠하이머병 병리 표지자인 Tau-PET 을 생성하고 각 MRI 모달리티의 기여도를 해석 가능하게 분석하기 위해, 부분 정보 분해 (PID) 기반의 벡터 양자화 인코더와 구조적 에지 정보를 활용한 Half-UNet 디코더를 결합한 DisQ-HNet 프레임워크를 제안합니다.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

이 논문은 자율주행 시스템 검증을 위한 데이터 증강을 위해 지리적 조건 간 의존성을 완화하고, 다중 뷰 계층적 텍스트 설명을 제공하며, 고주파 구조적 세부 사항을 강화하는 점진적 학습 프레임워크인 DrivePTS 를 제안하여 기존 방법의 한계를 극복하고 뛰어난 사실성과 제어 가능성을 달성함을 보여줍니다.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

이 논문은 확산 모델의 조건부 생성 성능 평가에서 기존 인간 선호도 모델이 큰 안내 스케일 (guidance scale) 에 편향되어 있다는 치명적인 평가 함정을 규명하고, 이를 해결하기 위한 공정한 평가 프레임워크 (GA-Eval) 와 새로운 방법론을 제안하여 해당 분야의 평가 패러다임 재고를 촉구합니다.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

GIFSplat: Generative Prior-Guided Iterative Feed-Forward 3D Gaussian Splatting from Sparse Views

이 논문은 희소 뷰에서 카메라 포즈나 테스트 시간 최적화 없이도 생성적 사전 지식을 활용하여 3D 가우스 스플래팅을 반복적으로 정제하는 순수 피드포워드 프레임워크인 GIFSplat 을 제안하여, 기존 방법들보다 inference 속도를 유지하면서 재구성 품질을 크게 향상시킵니다.

Tianyu Chen, Wei Xiang, Kang Han + 4 more2026-02-27💻 cs

ϕϕ-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

이 논문은 불균형 데이터 분포로 인한 편향을 해결하고 대용량 멀티모달 모델의 지속적 학습에서 망각을 완화하기 위해 새로운 공정성 직접 선호 최적화 (ϕ\phi-DPO) 프레임워크를 제안하고, 이론적 분석과 실험을 통해 기존 방법보다 우수한 성능을 입증합니다.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG

DP-aware AdaLN-Zero: Taming Conditioning-Induced Heavy-Tailed Gradients in Differentially Private Diffusion

이 논문은 조건부 확산 모델에서 이질적인 조건 입력으로 인한 무거운 꼬리 분포의 기울기가 차분적 프라이버시 (DP) 학습 성능을 저하시키는 문제를 해결하기 위해, 조건 표현의 크기와 AdaLN 조절 파라미터를 동시에 제한하는 'DP-aware AdaLN-Zero'를 제안하여 DP-SGD 하에서 프라이버시 예산을 유지하면서도 imputation 및 예측 성능을 크게 향상시켰음을 보여줍니다.

Tao Huang, Jiayang Meng, Xu Yang + 2 more2026-02-27🤖 cs.LG

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

본 논문은 소스 데이터를 보존하지 않고도 DETR 기반 검출기에 계층적 슬롯 인식 모듈과 클래스 유도 슬롯 대비 모듈을 통합하여 도메인 간 구조적 단서를 활용하는 최초의 소스 프리 도메인 적응 객체 탐지 프레임워크인 CGSA 를 제안하고, 이를 통해 기존 방법들을 능가하는 성능을 입증했습니다.

Boyang Dai, Zeng Fan, Zihao Qi + 2 more2026-02-27🤖 cs.AI

Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

이 논문은 주파수 영역에서 모달리티 선호도를 정량화하는 '주파수 비율 지표 (FRM)'를 기반으로, 다양한 멀티모달 모델에 플러그 앤 플레이 방식으로 적용 가능한 '다중 모달 가중치 할당 모듈 (MWAM)'을 제안하여 결손 모달리티 문제를 해결하고 모델의 강건성을 향상시킵니다.

Siqi Lu, Wanying Xu, Yongbin Zheng + 3 more2026-02-27💻 cs

Interactive Medical-SAM2 GUI: A Napari-based semi-automatic annotation tool for medical images

본 논문은 Napari 기반의 오픈소스 데스크톱 애플리케이션인 'Interactive Medical-SAM2 GUI'를 소개하여, SAM2 의 전파 기능을 활용하고 3D 의료 영상을 시퀀스로 처리함으로써 3D 스캔에 대한 수동 주석의 비효율성을 해결하고 연구용 3D 의료 이미지 주석 워크플로우를 단일 로컬 파이프라인에서 효율적으로 수행할 수 있게 합니다.

Woojae Hong, Jong Ha Hwang, Jiyong Chung + 3 more2026-02-27💻 cs

Scaling Audio-Visual Quality Assessment Dataset via Crowdsourcing

이 논문은 기존 오디오 - 비주얼 품질 평가 (AVQA) 데이터셋의 한계를 극복하기 위해 크라우드소싱 기반의 주관적 실험 프레임워크와 체계적인 데이터 준비 전략을 도입하여, 현재까지 가장 크고 다양한 1,620 개의 사용자 생성 A/V 시퀀스로 구성된 'YT-NTU-AVQ' 데이터셋을 구축하고 그 유효성을 검증했습니다.

Renyu Yang, Jian Jin, Lili Meng + 4 more2026-02-27💻 cs