Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Il paper presenta Granulon, un nuovo modello MLLM basato su DINOv3 che integra un controller di granularità testuale e un modulo di aggregazione adattiva per unificare il ragionamento visivo a più livelli di dettaglio, migliorando significativamente l'accuratezza e riducendo le allucinazioni.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Il paper presenta VisionCreator-R1, un agente nativo per la generazione visiva potenziato da meccanismi di riflessione e addestrato tramite un metodo di ottimizzazione congiunta (RPCO) che risolve l'asimmetria nell'apprendimento per rinforzo tra pianificazione e riflessione, superando le prestazioni di Gemini2.5Pro su benchmark per la generazione di immagini singole e multiple.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare

Questo lavoro presenta HMR-1, un sistema robotico di massaggio gerarchico basato su modelli linguistici visivi che, grazie al nuovo dataset multimodale MedMassage-12K, identifica con precisione i punti di agopuntura e pianifica traiettorie di controllo per applicazioni pratiche nella riabilitazione fisica.

Rongtao Xu, Mingming Yu, Xiaofeng Han, Yu Zhang, Kaiyi Hu, Zhe Feng, Zenghuang Fu, Changwei Wang, Weiliang Meng, Xiaopeng Zhang2026-03-11💻 cs

Impact of Different Failures on a Robot's Perceived Reliability

Uno studio controllato dimostra che, in un'interazione uomo-robot, i fallimenti dovuti a errori di scelta sono percepiti come meno dannosi per l'affidabilità rispetto a scivolamenti o blocchi, e che la fiducia può essere ripristinata semplicemente attraverso esecuzioni di successo successive, senza necessità di riparazioni sociali esplicite.

Andrew Violette, Zhanxin Wu, Haruki Nishimura, Masha Itkina, Leticia Priebe Rocha, Mark Zolotas, Guy Hoffman, Hadas Kress-Gazit2026-03-11💻 cs

HeteroFedSyn: Differentially Private Tabular Data Synthesis for Heterogeneous Federated Settings

Il paper presenta HeteroFedSyn, il primo framework di sintesi di dati tabulari con privacy differenziale progettato per ambienti federati orizzontali eterogenei, che supera le limitazioni delle metodologie esistenti mediante innovazioni nella selezione distribuita dei margini per garantire un'utilità paragonabile a quella dei sistemi centralizzati.

Xiaochen Li, Fengyu Gao, Xizixiang Wei, Tianhao Wang, Cong Shen, Jing Yang2026-03-11💻 cs

NaviNote: Enabling In-situ Spatial Annotation Authoring to Support Exploration and Navigation for Blind and Low Vision People

Il paper presenta NaviNote, un sistema che combina localizzazione visiva ad alta precisione e un'architettura agentica per consentire a persone con disabilità visiva di creare annotazioni spaziali in situ e migliorare la navigazione in ambienti sconosciuti.

Ruijia Chen, Yuheng Wu, Charlie Houseago, Filipe Gaspar, Filippo Aleotti, Dorian Gálvez-López, Oliver Johnston, Diego Mazala, Guillermo Garcia-Hernando, Maryam Bandukda, Gabriel Brostow, Jessica Van Brummelen2026-03-11💻 cs

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR è un nuovo pipeline generativo che supera i limiti dei modelli attuali consentendo un controllo compositivo fine-granularità sui video attraverso un'ibridazione di riferimenti statici e dinamici, permettendo agli utenti di definire esplicitamente le traiettorie, la posizione, la scala e la velocità di ciascun elemento per garantire coerenza spaziotemporale e alta fedeltà visiva.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Adaptive SINDy: Residual Force System Identification Based UAV Disturbance Rejection

Il documento propone un metodo innovativo che integra l'identificazione del sistema basata sui dati SINDy con un controllo adattivo RLS per migliorare il rifiuto delle perturbazioni del vento e la precisione nel tracciamento di traiettorie complesse di droni UAV in ambienti turbolenti, superando le prestazioni dei controllori PID e INDI tradizionali.

Fawad Mehboob, Amir Atef Habel, Roohan Ahmed Khan, Mikhail Derevianchenko, Clement Fortin, Dzmitry Tsetserukou2026-03-11💻 cs

Touching Emotions, Smelling Shapes: Exploring Tactile, Olfactory and Emotional Cross-sensory Correspondences in Preschool Aged Children

Questo studio esamina le corrispondenze incrociate tra olfatto, tatto ed emozioni in 26 bambini in età prescolare, rivelando associazioni sistematiche che offrono indicazioni empiriche per la progettazione di tecnologie educative e affettive adeguate a questa fascia d'età.

Tegan Roberts-Morgan, Min S. Li, Priscilla Lo, Zhuzhi Fan, Dan Bennett, Oussama Metatla2026-03-11💻 cs

Computing LL_\infty Hausdorff Distances Under Translations: The Interplay of Dimensionality, Symmetry and Discreteness

Questo lavoro analizza la complessità computazionale fine della distanza di Hausdorff LL_\infty tra insiemi di punti sotto traslazioni, rivelando come dimensione, simmetria (distanza diretta vs. indistinta) e discrezione (continuo vs. discreto) influenzino in modo intricato i limiti superiori e inferiori del tempo di esecuzione, fornendo nuovi algoritmi quasi-lineari e dimostrando la durezza condizionale per diverse varianti del problema.

Sebastian Angrick, Kevin Buchin, Geri Gokaj, Marvin Künnemann2026-03-11💻 cs