Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

이 논문은 확산 모델에 국한되지 않는 비확산 기반 적대적 정제 모델이 데이터 없이도 뛰어난 전이성과 색상 일반화 성능을 발휘하며, CIFAR-10 에서 훈련된 모델이 ImageNet 에서 확산 모델보다 우수한 성능을 보여 적대적 방어에서 확산 모델과 분류기의 관계를 재고해야 함을 주장합니다.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

이 논문은 CoT 추론과 자기 일관성 투표 등을 통해 보상 모델을 정교화하고 이를 기반으로 비디오 생성 모델을 반복적으로 최적화하는 'Dual-IPO' 프레임워크를 제안하여, 수동 주석 없이도 텍스트-비디오 생성의 품질과 인간 선호도 정렬을 획기적으로 향상시킨다는 점을 강조합니다.

Xiaomeng Yang, Mengping Yang, Jia Gong + 3 more2026-02-27🤖 cs.AI

UniFuture: A 4D Driving World Model for Future Generation and Perception

이 논문은 2D 비디오 생성과 정적 인식의 한계를 극복하기 위해 외관과 기하학을 통합한 단일 4D 표현을 구축하고, 이중 잠재 공유 (DLS) 및 다중 스케일 잠재 상호작용 (MLI) 메커니즘을 통해 단일 프레임으로부터 기하학적으로 일관된 미래 4D 장면 시퀀스를 생성하는 'UniFuture'를 제안합니다.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

이 논문은 의료 영상 분할에서 데이터 부족 문제를 해결하기 위해 데이터 풀링 시 i.i.d. 가정보다 교환성 (exchangeability) 을 가정하고 인과적 프레임워크를 활용해 특징 불일치를 제어함으로써 데이터 추가 딜레마를 극복하고 여러 데이터셋에서 최첨단 성능을 달성하는 방법을 제안합니다.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

이 논문은 단일 추론으로 배경과 여러 전경 레이어를 포함한 일관된 레이어화된 비디오를 생성하여 전문 워크플로우를 지원하고, VidLayer 데이터셋과 새로운 아키텍처를 통해 기존 방법보다 뛰어난 화질과 일관성을 달성하는 통합 멀티레이어 비디오 생성 프레임워크인 LayerT2V 를 제안합니다.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

이 논문은 고해상도 중간 표현과 명시적 운동 모델링의 계산 복잡성으로 인해 실시간 적용이 어려웠던 기존 오디오 구동 초상화 애니메이션의 한계를 극복하기 위해, 하이브리드 어텐션 메커니즘과 정적 - 동적 학습 - 추론 패러다임을 도입하여 실시간 제약 하에서도 정밀한 오디오 동기화와 높은 시각적 충실도를 달성하는 'RAP' 프레임워크를 제안합니다.

Fangyu Du, Taiqing Li, Qian Qiao + 7 more2026-02-27⚡ eess