InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Il paper presenta InstantSfM, un sistema SfM globale nativo per GPU e compatibile con PyTorch che risolve l'ambiguità della scala integrando priori di profondità metrica e garantisce stabilità numerica, ottenendo un'efficienza fino a 40 volte superiore rispetto a COLMAP mantenendo un'accuratezza di ricostruzione comparabile.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Il paper introduce REALM, un framework basato su agenti MLLM che esegue la segmentazione e l'editing 3D in mondi aperti su rappresentazioni Gaussian Splatting, utilizzando una strategia di grounding spaziale globale-locale per interpretare istruzioni complesse senza necessità di un addestramento specifico 3D.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Il paper presenta EyeAgent, il primo sistema di intelligenza artificiale agenziale multimodale per l'oftalmologia che, integrando un modello linguistico con 53 strumenti specializzati, fornisce supporto decisionale clinico interpretabile e migliora significativamente l'accuratezza diagnostica e la qualità dei referti, specialmente tra gli oftalmologi junior.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Il paper presenta MergeVLA, un'architettura VLA progettata per il merging di modelli che risolve le sfide dell'addestramento multi-abilità attraverso l'uso di adapter LoRA attivati sparsamente e blocchi di attenzione incrociata, consentendo a un agente generalista di superare le prestazioni dei singoli esperti finetunati su diverse piattaforme robotiche.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

Il paper presenta COVec, un nuovo framework di vettorizzazione illuminazione-consapevole ispirato al principio del chiaroscuro che, decomponendo le immagini in livelli intrinseci di albedo, ombra e luce, supera i limiti dei metodi esistenti garantendo una maggiore fedeltà visiva e migliorata modificabilità per immagini reali complesse.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Il paper introduce AD-R1, un framework di apprendimento per rinforzo in ciclo chiuso che utilizza un "Modello di Mondo Imparziale" addestrato tramite sintesi controfattuale per prevedere onestamente i pericoli e ridurre significativamente le violazioni di sicurezza nella guida autonoma end-to-end.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Questo articolo presenta algoritmi randomizzati che calcolano approssimazioni (1ε)(1-\varepsilon) del massimo clique in grafi di dischi con tempi di esecuzione quasi lineari, offrendo una soluzione quasi lineare per i grafi di dischi unitari e uno schema di approssimazione parametrizzato per grafi con tt raggi distinti.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Questo lavoro introduce SVBench, il primo benchmark per valutare la capacità di ragionamento sociale dei modelli di generazione video, rivelando attraverso una valutazione su larga scala che, nonostante i progressi nel realismo visivo, i sistemi attuali faticano ancora a produrre comportamenti socialmente coerenti e psicologicamente fondati.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Il paper presenta Cosmos-H-Surgical, un modello di mondo che genera dati sintetici video-azione da un vasto corpus di video chirurgici non etichettati, permettendo l'addestramento di politiche robotiche che superano le prestazioni ottenute con i soli dati reali.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs