DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

이 논문은 CLIP 기반의 다중 레이블 클래스 증분 학습에서 발생하는 catastrophic forgetting 과 높은 오검출률을 해결하기 위해, 각 클래스별 프롬프트 공간을 분리하는 'DeCLIP' 프레임워크와 오검출률을 억제하는 'AST' 전략을 제안하여 재현 데이터 없이도 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

이 논문은 비디오 확산 모델의 직관적 물리 이해 능력을 시각적 외관과 분리하여 평가하기 위해, 생성된 비디오의 물리 타당성을 확률 기반 선호도로 측정하는 훈련 없는 방법인 LikePhys 를 제안하고, 이를 통해 현재 모델들의 물리 이해 능력이 규모 확장에 따라 점진적으로 향상되고 있음을 입증합니다.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

이 논문은 제한된 2D 뷰만으로도 인간과 유사한 3D 공간 상상력을 통해 추론할 수 있도록, 3D 사전 지식이나 명시적 3D 데이터 없이도 3D 잠재 공간 정합 및 결과 기반 최적화를 통해 훈련된 새로운 프레임워크인 3DThinker 를 제안합니다.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

이 논문은 생성형 AI 모델이 문화적 아이콘을 처리할 때 단순한 복제가 아닌 '인식'과 '구현'의 두 차원을 구분하는 새로운 평가 프레임워크와 '문화적 참조 변환 (CRT)' 지표를 제안하며, 모델의 행동이 학습 데이터 빈도뿐만 아니라 텍스트 고유성, 참조의 인기도, 제작 시기 등 다양한 요인에 의해 결정됨을 규명합니다.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

이 논문은 대규모 언어 모델 (LLM) 과 그리드 기반 정수 계획법을 결합하여 텍스트 프롬프트에서 구조화된 제약 조건을 추출하고, coarse-to-fine 최적화 전략을 통해 방 배치와 가구 배치를 공동으로 최적화하는 새로운 자동 인테리어 디자인 프레임워크인 'Co-Layout'을 제안합니다.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

이 논문은 중립적인 장면, 잠재적 청각적 트리거, 스타일 조절자를 결합한 모듈형 프롬프트 디자인을 통해 T2V 모델의 안전 장벽을 우회하는 새로운 재킹 프레임워크 'SPARK'를 제안하고, 이를 통해 기존 공격 대비 23% 높은 성공률을 달성했음을 보여줍니다.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

이 논문은 신생아 저자기장 MRI 의 낮은 화질을 고자기장 MRI 수준으로 향상시키기 위해 물리 법칙을 고려한 3D 조건부 확산 모델인 MRIQT 를 제안하고, 기존 방법론보다 우수한 화질 개선 및 병변 식별 능력을 입증했습니다.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

이 논문은 Sentinel-2 위성 영상과 기후 데이터를 결합한 대규모 벤치마크 'FireScope-Bench'와 강화 학습 및 시각적 감독을 통해 사고 과정 (Chain-of-Thought) 을 생성하며 산불 위험 지도를 예측하는 'FireScope' 모델을 제안하여, 언어 기반 추론이 시각 생성 모델의 일반화 성능과 해석 가능성을 크게 향상시킨다는 것을 입증합니다.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

이 논문은 스테이블 디퓨전 기반의 사전 지식을 활용해 렌즈 베일링 글레어의 전파 및 글레어 맵을 비지도 방식으로 학습하는 생성 모델 'VeilGen'과 이를 활용한 복원 네트워크 'DeVeiler'를 제안하여, 기존 시뮬레이션의 한계를 극복하고 단순화된 광학 시스템에서 우수한 복원 품질과 물리적 충실도를 달성함을 보여줍니다.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

EgoCogNav: Cognition-aware Human Egocentric Navigation

이 논문은 인간의 인지적 요인을 고려한 새로운 다중 모달 내비게이션 프레임워크 'EgoCogNav'와 실제 세계 데이터셋 'CEN'을 제안하여, 인간의 내비게이션 행동과 관련된 지각된 불확실성을 예측하고 이를 통해 인간과 유사한 행동 패턴을 학습하는 것을 목표로 합니다.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

이 논문은 2D 외관과 4D 동역학을 밀접하게 결합하여 단일 뷰의 한계를 극복하고, 시각적 사실성과 운동의 타당성, 다중 뷰 일관성을 모두 갖춘 손 - 물체 상호작용 (HOI) 을 생성하는 최초의 동기화된 다중 뷰 4D 생성 모델인 'SyncMV4D'를 제안합니다.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs