MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Il paper presenta MergeVLA, un'architettura VLA progettata per il merging di modelli che risolve le sfide dell'addestramento multi-abilità attraverso l'uso di adapter LoRA attivati sparsamente e blocchi di attenzione incrociata, consentendo a un agente generalista di superare le prestazioni dei singoli esperti finetunati su diverse piattaforme robotiche.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

Clair Obscur: an Illumination-Aware Method for Real-World Image Vectorization

Il paper presenta COVec, un nuovo framework di vettorizzazione illuminazione-consapevole ispirato al principio del chiaroscuro che, decomponendo le immagini in livelli intrinseci di albedo, ombra e luce, supera i limiti dei metodi esistenti garantendo una maggiore fedeltà visiva e migliorata modificabilità per immagini reali complesse.

Xingyue Lin, Shuai Peng, Xiangyu Xie, Jianhua Zhu, Yuxuan Zhou, Liangcai Gao2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Il paper introduce AD-R1, un framework di apprendimento per rinforzo in ciclo chiuso che utilizza un "Modello di Mondo Imparziale" addestrato tramite sintesi controfattuale per prevedere onestamente i pericoli e ridurre significativamente le violazioni di sicurezza nella guida autonoma end-to-end.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

Near-Linear and Parameterized Approximations for Maximum Cliques in Disk Graphs

Questo articolo presenta algoritmi randomizzati che calcolano approssimazioni (1ε)(1-\varepsilon) del massimo clique in grafi di dischi con tempi di esecuzione quasi lineari, offrendo una soluzione quasi lineare per i grafi di dischi unitari e uno schema di approssimazione parametrizzato per grafi con tt raggi distinti.

Jie Gao, Pawel Gawrychowski, Panos Giannopoulos, Wolfgang Mulzer, Satyam Singh, Frank Staals, Meirav Zehavi2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Questo lavoro introduce SVBench, il primo benchmark per valutare la capacità di ragionamento sociale dei modelli di generazione video, rivelando attraverso una valutazione su larga scala che, nonostante i progressi nel realismo visivo, i sistemi attuali faticano ancora a produrre comportamenti socialmente coerenti e psicologicamente fondati.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Il paper presenta Cosmos-H-Surgical, un modello di mondo che genera dati sintetici video-azione da un vasto corpus di video chirurgici non etichettati, permettendo l'addestramento di politiche robotiche che superano le prestazioni ottenute con i soli dati reali.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Questo articolo propone due framework basati su rappresentazioni neurali implicite (INR) per l'analisi volumetrica 3D delle immagini OCT retiniche, permettendo un'interpolazione densa tra scansioni distanti e la creazione di un atlante retinico agnostico rispetto alla risoluzione, superando così i limiti delle metodologie tradizionali bidimensionali e dipendenti dalla risoluzione.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Questo studio introduce OODEval, un benchmark manuale e una metrica unificata (CLUE) per valutare le capacità di progettazione orientata agli oggetti di 29 modelli linguistici, rivelando che, sebbene alcuni modelli raggiungano livelli comparabili agli studenti universitari, mostrano ancora significative carenze semantiche rispetto ai migliori progettisti umani.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING è un framework efficiente per la ricostruzione 3D in streaming che, grazie a una rappresentazione ibrida che disaccoppia primitivi geometrici espliciti e Gaussiane neurali, ottiene simultaneamente alta qualità di rendering e geometria accurata, superando i metodi esistenti in termini di velocità e precisione.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Questa ricerca dimostra che l'ordine di valutazione (prima la recensione o prima il voto) polarizza le recensioni dei consumatori, aumentando i voti estremi per servizi di alta o bassa qualità grazie a euristiche affettive e sforzo cognitivo, un effetto confermato sia da esperimenti controllati che da dati reali di piattaforme come Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

Questo articolo analizza empiricamente la letteratura robotica dal 1980 al 2024 per evidenziare la scarsa definizione del concetto di lavori "noiosi, sporchi e pericolosi" (DDD), integrando studi di scienze sociali per proporre un quadro concettuale che guidi la comunità robotica verso una comprensione più informata dell'impatto della tecnologia sul lavoro umano.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent è un sistema di inferenza agenziale semplice, veloce e consapevole del programma che, astruendo i flussi di lavoro come "LLM Programs" e gestendo in modo unificato risorse eterogenee come cache KV e strumenti esterni, supera le limitazioni delle architetture attuali ottenendo significativi miglioramenti nel throughput e nel risparmio di memoria.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ è un framework di Virtual Try-On universale e privo di addestramento che, integrando morfing strutturato dei capi, guida della posa principale e cucitura continua dei bordi, risolve le sfide di allineamento e coerenza strutturale per ottenere prestazioni all'avanguardia su scenari, tipi di abbigliamento e personaggi diversi senza necessità di riaddestramento.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs