InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

정보 이론에 기반한 InfoTok 은 비디오의 정보 밀도에 따라 토큰을 적응적으로 할당하여 기존 고정 압축 방식의 한계를 극복하고, 성능 저하 없이 토큰 수를 20% 절감하거나 2.3 배의 압축률을 달성하는 새로운 비디오 토크나이저 프레임워크를 제안합니다.

Haotian Ye, Qiyuan He, Jiaqi Han, Puheng Li, Jiaojiao Fan, Zekun Hao, Fitsum Reda, Yogesh Balaji, Huayu Chen, Sheng Liu, Angela Yao, James Zou, Stefano Ermon, Haoxiang Wang, Ming-Yu Liu2026-03-24🤖 cs.AI

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

본 논문은 기존 벤치마크의 한계를 지적하고, 구별, 공간, 제한, 거부라는 네 가지 차원에서 MLLM 의 실제 시각적 그라운딩 능력을 평가하는 새로운 벤치마크 'GroundingME'를 제안하며, 이를 통해 현재 모델들의 심각한 성능 격차를 드러내고 개선 방향을 제시합니다.

Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo2026-03-24💻 cs

Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

이 논문은 3D 편집과 2D 시각 데이터를 연결하는 'Real2Edit2Real' 프레임워크를 제안하여, 소량의 원본 데모만으로도 로봇 조작 태스크의 공간적 일반화 능력을 크게 향상시키는 고품질 데모 데이터를 생성하고 학습 효율성을 10~50 배까지 개선하는 방법을 제시합니다.

Yujie Zhao, Hongwei Fan, Di Chen, Shengcong Chen, Liliang Chen, Xiaoqi Li, Guanghui Ren, Hao Dong2026-03-24💻 cs

Toward Real-Time Surgical Scene Segmentation via a Spike-Driven Video Transformer with Spike-Informed Pretraining

이 논문은 제한된 데이터와 자원 환경에서 실시간 수술 장면 분할을 가능하게 하기 위해, MAE 기반의 스파이크 정보 사전 학습과 멀티 스펙트럼 지식 증류 기술을 적용한 최초의 스파이크 기반 비디오 트랜스포머 'SpikeSurgSeg'를 제안하며, 기존 ANN 모델과 유사한 정확도를 유지하면서 추론 속도를 최대 20 배 이상 향상시킵니다.

Shihao Zou, Jingjing Li, Wei Ji, Jincai Huang, Kai Wang, Guo Dan, Weixin Si, Yi Pan2026-03-24💻 cs

Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models

이 논문은 시각적 편향을 극복하고 시퀀스 의존성을 활용하여 장편 비디오를 의미 있는 장면으로 분할하는 최초의 미세 조정된 비전 - 언어 모델 프레임워크인 'Scene-VLM'을 제안하며, 다중 모달 추론과 설명 가능한 논리를 통해 기존 방법론보다 뛰어난 성능을 달성함을 보여줍니다.

Nimrod Berman, Adam Botach, Emanuel Ben-Baruch, Shunit Haviv Hakimi, Asaf Gendler, Ilan Naiman, Erez Yosef, Igor Kviatkovsky2026-03-24💻 cs

Vision-language models lag human performance on physical dynamics and intent reasoning

이 논문은 비전 - 언어 모델이 물리적 역학과 인간 의도 추론에서 인간 성능에 크게 미치지 못하는 '목적 - 공간적 추론 격차'를 확인했으며, 이를 평가하기 위해 대규모 실세계 비디오 데이터셋인 EscherVerse 를 제안하고 목적 지향적 공간 추론의 중요성을 강조합니다.

Tianjun Gu, Jingyu Gong, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, Xin Tan, Athanasios V2026-03-24🤖 cs.AI

ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration

이 논문은 인간의 시각 지각을 모방한 계층적 coarse-to-fine 전략, 멀티모달 LLM 기반 전역 평가, 지역 인식 및 작업 인식 파이프라인, 그리고 내부 단서 재사용 메커니즘을 통해 기존 모든-하나 이미지 복원 방법의 한계를 극복하고 다양한 합성 및 실제 데이터셋에서 우수한 성능을 보이는 ClearAIR 프레임워크를 제안합니다.

Xu Zhang, Huan Zhang, Guoli Wang, Qian Zhang, Lefei Zhang2026-03-24💻 cs