DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

Il paper presenta DianJin-OCR-R1, un modello visione-linguaggio potenziato dal ragionamento che combina capacità di riconoscimento interne con l'uso di strumenti esterni e un processo di "ripresa" visiva per ridurre le allucinazioni e migliorare l'accuratezza nell'OCR rispetto ai modelli tradizionali e ai VLM non ragionanti.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Il paper propone SSL-SLR, un nuovo framework di apprendimento auto-supervisionato per il riconoscimento della lingua dei segni che, superando i limiti dei metodi contrastivi tradizionali grazie a coppie negative libere e una nuova tecnica di aumento dei dati, ottiene prestazioni superiori in termini di accuratezza e trasferibilità tra diverse lingue dei segni.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Il paper presenta RED, una rete di deblurring guidata da eventi che migliora la robustezza e le prestazioni nel ripristino di immagini sfocate attraverso una strategia di perturbazione orientata alla robustezza e un meccanismo di disentanglement delle rappresentazioni specifiche per modalità, permettendo una fusione selettiva che separa le informazioni utili dal rumore causato dalla sottostima degli eventi.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Il paper propone Kernel VICReg, un nuovo framework di apprendimento auto-supervisionato che trasporta l'obiettivo VICReg in uno Spazio di Hilbert a Nucleo Riproducente (RKHS) per catturare dipendenze non lineari e migliorare le prestazioni su dati con strutture complesse o campioni limitati, superando i limiti dei metodi basati su spazio euclideo.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Il paper propone C²Prompt, un metodo innovativo per l'apprendimento continuo federato che supera le limitazioni delle tecniche basate su prompt esistenti migliorando la coerenza della conoscenza a livello di classe attraverso un meccanismo di compensazione della distribuzione locale e uno schema di aggregazione consapevole delle classi, ottenendo così prestazioni all'avanguardia nel mitigare l'oblio temporale e spaziale.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Questo lavoro propone un approccio basato sulla visione per l'esplorazione semantica di oggetti da parte di robot a zampe, che utilizza un'arbitratura delle evidenze semantiche calibrata sulla confidenza, una memoria topologica a crescita controllata e una selezione di sottobiettivi guidata dall'utilità semantica per prendere decisioni di esplorazione stabili ed eseguibili senza dipendere da ricostruzioni geometriche dense.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Il paper presenta DeCLIP, un framework efficiente e privo di replay che risolve il problema dell'apprendimento incrementale multi-etichetta decouplando le rappresentazioni di CLIP tramite prompt specifici per classe e introducendo l'Adaptive Similarity Tempering per mitigare l'oblio catastrofico e ridurre i falsi positivi.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Il paper introduce LikePhys, un metodo senza addestramento che valuta la comprensione della fisica intuitiva nei modelli di diffusione video misurando la preferenza di verosimiglianza su un benchmark curato, dimostrando che tale capacità migliora con la scalabilità del modello nonostante le attuali difficoltà con dinamiche complesse.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Il paper presenta 3DThinker, un framework innovativo che permette ai modelli visione-linguaggio di effettuare un ragionamento spaziale tridimensionale basato sull'immaginazione geometrica partendo da viste limitate, senza richiedere dati 3D espliciti o input 3D preliminari.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Questo studio introduce un quadro di valutazione basato sulla metrica CRT per analizzare come i modelli di diffusione gestiscano l'iconicità multimodale, distinguendo tra il riconoscimento dei riferimenti culturali e la loro realizzazione visiva, e rivelando che tale comportamento dipende da fattori quali la frequenza dei dati, l'unicità testuale e la popolarità del riferimento.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

Il paper presenta Co-Layout, un nuovo framework che combina modelli linguistici su larga scala e programmazione intera su griglia per ottimizzare congiuntamente la disposizione degli spazi interni e il posizionamento dei mobili, superando le pipeline esistenti in qualità della soluzione ed efficienza computazionale grazie a una strategia di ottimizzazione da grezzo a fine.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Il paper presenta SPARK, un framework di jailbreak che aggira le difese dei modelli testo-video sfruttando prompt apparentemente innocui che combinano ancoraggi di scena neutri, trigger auditivi latenti e modulatori stilistici per indurre la generazione di contenuti non sicuri mantenendo l'intento originale.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Il paper presenta MRIQT, un modello di diffusione 3D fisicamente consapevole che trasforma le immagini risonanza magnetica ultra-bassa intensità (uLF) neonatali in immagini ad alta qualità, superando le tecniche esistenti e consentendo una valutazione affidabile del cervello neonatale.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Il paper presenta FunnyNodules, un dataset sintetico completamente parametrizzabile di noduli polmonari astratti con annotazioni dettagliate sulle caratteristiche visive e le regole decisionali, progettato per valutare e migliorare i modelli di intelligenza artificiale spiegabile (xAI) in ambito medico garantendo che le previsioni siano basate sulle ragioni corrette.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs