sim2art: Accurate Articulated Object Modeling from a Single Video using Synthetic Training Data Only

이 논문은 단일 비디오만으로도 합성 데이터만으로 학습된 시뮬레이션 기반 프레임워크 'sim2art'를 통해 관절형 물체의 3D 부분 분할 및 조인트 파라미터를 정확하게 복원하고, 기존 방법들의 한계를 극복하며 새로운 벤치마크 데이터셋을 제안합니다.

Arslan Artykov, Tom Ravaud, Corentin Sautier, Vincent Lepetit2026-03-24💻 cs

Flowception: Temporally Expansive Flow Matching for Video Generation

Flowception 은 프레임 삽입과 연속적인 프레임 제거 노이즈를 교차하여 학습하는 비자율적 가변 길이 비디오 생성 프레임워크로, 장기적 맥락 처리 효율성과 학습 비용 절감을 통해 기존 방법보다 우수한 성능을 달성하며 이미지-비디오 생성과 비디오 보간 등 다양한 작업을 통합합니다.

Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen2026-03-24🤖 cs.AI

Intrinsic Image Fusion for Multi-View 3D Material Reconstruction

이 논문은 단일 뷰 사전 지식과 확산 기반 추정기를 활용하여 일관성이 부족한 다중 뷰 예측을 통합하고, 역 경로 추적을 통해 고품질의 물리 기반 재료를 재구성하는 '본질적 이미지 융합 (Intrinsic Image Fusion)' 방법을 제안합니다.

Peter Kocsis (Technical University of Munich), Lukas Höllein (Technical University of Munich), Matthias Nießner (Technical University of Munich)2026-03-24🤖 cs.AI

InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

정보 이론에 기반한 InfoTok 은 비디오의 정보 밀도에 따라 토큰을 적응적으로 할당하여 기존 고정 압축 방식의 한계를 극복하고, 성능 저하 없이 토큰 수를 20% 절감하거나 2.3 배의 압축률을 달성하는 새로운 비디오 토크나이저 프레임워크를 제안합니다.

Haotian Ye, Qiyuan He, Jiaqi Han, Puheng Li, Jiaojiao Fan, Zekun Hao, Fitsum Reda, Yogesh Balaji, Huayu Chen, Sheng Liu, Angela Yao, James Zou, Stefano Ermon, Haoxiang Wang, Ming-Yu Liu2026-03-24🤖 cs.AI

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

본 논문은 기존 벤치마크의 한계를 지적하고, 구별, 공간, 제한, 거부라는 네 가지 차원에서 MLLM 의 실제 시각적 그라운딩 능력을 평가하는 새로운 벤치마크 'GroundingME'를 제안하며, 이를 통해 현재 모델들의 심각한 성능 격차를 드러내고 개선 방향을 제시합니다.

Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo2026-03-24💻 cs