DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

DreamVideo-Omni è un framework unificato che, attraverso un paradigma di addestramento progressivo in due fasi e un meccanismo di rinforzo dell'identità latente, risolve le sfide della personalizzazione video multi-soggetto permettendo un controllo preciso e simultaneo di identità, movimenti globali, dinamiche locali e movimenti della camera.

Yujie Wei, Xinyu Liu, Shiwei Zhang + 12 more2026-03-13💻 cs

HumDex:Humanoid Dexterous Manipulation Made Easy

Il paper presenta HumDex, un sistema di teleoperazione portatile e open-source che risolve il compromesso tra portabilità e precisione per la manipolazione destrezza degli umanoidi, combinando tracciamento IMU, un metodo di retargeting basato sull'apprendimento e un framework di apprendimento per imitazione a due stadi per raccogliere dati dimostrativi di alta qualità e migliorare la generalizzazione dei compiti.

Liang Heng, Yihe Tang, Jiajun Xu + 3 more2026-03-13💻 cs

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Il paper propone Video Streaming Thinking (VST), un nuovo paradigma per i modelli linguistici video che integra simultaneamente la percezione in streaming e il ragionamento logico, superando i compromessi tra latenza e coerenza cognitiva grazie a una pipeline di addestramento avanzata e ottenendo prestazioni superiori su benchmark online senza sacrificare le capacità di ragionamento offline.

Yiran Guan, Liang Yin, Dingkang Liang + 5 more2026-03-13💻 cs

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Il paper introduce GRADE, il primo benchmark progettato per valutare la capacità dei modelli multimodali di ragionamento e modifica delle immagini basata su conoscenze disciplinari specifiche, rivelando attraverso un protocollo di valutazione multidimensionale le significative limitazioni degli attuali modelli di stato dell'arte in contesti di editing complessi e orientati alla conoscenza.

Mingxin Liu, Ziqian Fan, Zhaokai Wang + 13 more2026-03-13💻 cs

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Il paper presenta OmniStream, un backbone visivo unificato per flussi continui che, grazie a un'architettura causale e un pre-addestramento multi-task su 29 dataset, riesce a percepire, ricostruire e agire in tempo reale con prestazioni competitive in compiti di ragionamento semantico, spaziale e temporale, anche per agenti robotici non visti durante l'addestramento.

Yibin Yan, Jilan Xu, Shangzhe Di + 2 more2026-03-13💻 cs

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Il paper introduce MM-CondChain, un benchmark verificabile programmaticamente che valuta la capacità dei modelli linguistici multimodali di eseguire ragionamenti compositi profondi e visivamente radicati attraverso catene di condizioni logiche complesse, rivelando che anche i modelli più avanzati faticano a gestire tale complessità.

Haozhan Shen, Shilin Yan, Hongwei Xue + 5 more2026-03-13💻 cs

In Pursuit of Many: A Review of Modern Multiple Object Tracking Systems

Questo articolo offre una panoramica completa dei recenti progressi nel tracciamento multi-oggetto, esaminando l'evoluzione dalle architetture tradizionali ai modelli basati su transformer e foundation models, analizzando le tendenze nei benchmark e le metriche di valutazione, e delineando le direzioni future per l'adozione pratica in scenari reali.

Mk Bashar, Samia Islam, Kashifa Kawaakib Hussain, Md. Bakhtiar Hasan, A. B. M. Ashikur Rahman, Md. Hasanul Kabir2026-03-12💻 cs