Learning to Think Fast and Slow for Visual Language Models

Il paper presenta DualMindVLM, un modello di linguaggio visivo che implementa un meccanismo di pensiero duale adattivo, imitando la capacità umana di alternare risposte intuitive rapide a ragionamenti deliberati lenti in base alla complessità del compito, ottenendo così prestazioni di ragionamento all'avanguardia con un'efficienza dei token significativamente superiore rispetto ai modelli esistenti.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Il paper presenta UnfoldLDM, un nuovo approccio per il ripristino cieco delle immagini che integra le reti di deep unfolding con un modello di diffusione latente, superando le limitazioni delle metodologie esistenti grazie a un modulo di stima della degradazione e a un meccanismo di correzione per i dettagli ad alta frequenza.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Il paper presenta Yo'City, un innovativo framework agentic che utilizza modelli di grandi dimensioni per generare scene urbane 3D realistiche, personalizzabili e infinitamente espandibili attraverso una pianificazione gerarchica e un meccanismo di espansione guidato dall'utente, superando le prestazioni degli stati dell'arte esistenti.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

An LLM-Assisted Multi-Agent Control Framework for Roll-to-Roll Manufacturing Systems

Questo articolo presenta un framework multi-agente assistito da LLM che automatizza la progettazione e l'adattamento dei sistemi di controllo per la produzione roll-to-roll, garantendo sicurezza e riducendo l'intervento manuale attraverso identificazione del sistema, sintonizzazione automatica, adattamento sim-to-real e monitoraggio continuo.

Jiachen Li, Shihao Li, Christopher Martin, Zijun Chen, Dongmei Chen, Wei Li2026-03-10💻 cs

Integrating a Causal Foundation Model into a Prescriptive Maintenance Framework for Optimising Production-Line OEE

Questo articolo propone l'integrazione di un modello fondazionale causale pre-addestrato in un framework di manutenzione prescrittiva per simulare interventi e ottimizzare l'efficienza complessiva degli impianti (OEE), superando i limiti delle sole correlazioni statistiche per identificare le vere cause radice dei guasti.

Felix Saretzky, Lucas Andersen, Thomas Engel, Fazel Ansari2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

Il paper introduce HiconAgent, un agente GUI che utilizza l'ottimizzazione della politica consapevole del contesto storico (HCPO) per migliorare l'efficienza e le prestazioni nei compiti di navigazione riducendo il carico computazionale attraverso il campionamento dinamico del contesto e la compressione della storia guidata da ancoraggi.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Questo studio rivela che nei modelli linguistici visivi profondi le informazioni dei token visivi si esauriscono oltre una certa "orizzonte informativo", rendendo la rimozione casuale dei token nelle fasi avanzate più efficace dei metodi di pruning esistenti e permettendo di ottenere risultati all'avanguardia riducendo del 50% i token visivi.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs