EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

EffectMaker è un framework unificato di ragionamento e generazione che, sfruttando un modello linguistico multimodale e un trasformatore di diffusione addestrato su un vasto dataset sintetico, permette la creazione personalizzata di effetti visivi video di alta qualità senza necessità di addestramento specifico per ogni effetto.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Il paper introduce MOSIV, un nuovo framework che risolve il problema dell'identificazione di sistemi multi-oggetto dai video ottimizzando direttamente i parametri materiali continui per ogni oggetto tramite un simulatore differenziabile, superando i limiti dei metodi precedenti e offrendo un benchmark sintetico per valutare l'accuratezza e la fedeltà della simulazione a lungo termine.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Il paper presenta StruVis, un nuovo framework che migliora la generazione di immagini da testo basata sul ragionamento utilizzando rappresentazioni visive strutturate testuali come stati intermedi, permettendo così ai modelli linguistici multimediali di "percepire" la struttura visiva senza generare immagini intermedie e integrandosi in modo efficiente con diversi generatori.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Questo lavoro affronta la complessità computazionale degli ipercolonne dense applicando il sottocampionamento stratificato e l'apprendimento di ensemble su ipercolonne sparse derivate da VGG16, dimostrando che tale approccio migliora significativamente le prestazioni nella segmentazione di tumori cerebrali in scenari a pochi esempi rispetto alla baseline UNet.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Il paper propone GvU, un meccanismo di ricompensa intrinseca che sfrutta la capacità di comprensione dei modelli multimodali unificati per guidare e migliorare la generazione di immagini tramite apprendimento per rinforzo auto-supervisionato, riducendo così il divario tra comprensione visiva e generazione.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Il paper presenta GenHOI, un'architettura leggera che potenzia i modelli di generazione video preaddestrati mediante un'iniezione selettiva di oggetti riferiti, bilanciata temporalmente e spazialmente, per garantire coerenza fisica e identità degli oggetti nelle interazioni mano-oggetto in scenari complessi e non controllati.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Il paper presenta Curious-VLA, un framework che supera i limiti delle politiche ristrette nei modelli VLA per la guida autonoma attraverso una strategia di espansione delle traiettorie fattibili e un campionamento adattivo, ottenendo risultati all'avanguardia sul benchmark Navsim.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Questo studio analizza le attivazioni intermedie dei modelli visione-linguaggio per l'automazione stradale, identificando che i fallimenti derivano sia da incapacità percettive (mancata codifica lineare di concetti visivi come l'orientamento) sia da errori cognitivi (mancato allineamento tra informazioni visive e semantica linguistica), con una ridotta separabilità dei concetti all'aumentare della distanza degli oggetti.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Il paper propone i "Lyapunov Probes", un metodo innovativo che applica la teoria della stabilità dei sistemi dinamici per rilevare le allucinazioni nei modelli linguistici e multimodali di grandi dimensioni identificando le regioni instabili dello spazio delle rappresentazioni attraverso l'analisi delle perturbazioni.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

Il paper propone FedARKS, un nuovo framework di federated learning per il re-identificazione delle persone che supera i limiti delle attuali metodologie di generalizzazione di dominio integrando due meccanismi, Robust Knowledge e Knowledge Selection, per catturare dettagli locali discriminativi e selezionare attivamente i contributi dei client più affidabili durante l'aggregazione.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs