SVBench: Evaluation of Video Generation Models on Social Reasoning

Questo lavoro introduce SVBench, il primo benchmark per valutare la capacità di ragionamento sociale dei modelli di generazione video, rivelando attraverso una valutazione su larga scala che, nonostante i progressi nel realismo visivo, i sistemi attuali faticano ancora a produrre comportamenti socialmente coerenti e psicologicamente fondati.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Il paper presenta Cosmos-H-Surgical, un modello di mondo che genera dati sintetici video-azione da un vasto corpus di video chirurgici non etichettati, permettendo l'addestramento di politiche robotiche che superano le prestazioni ottenute con i soli dati reali.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Questo articolo propone due framework basati su rappresentazioni neurali implicite (INR) per l'analisi volumetrica 3D delle immagini OCT retiniche, permettendo un'interpolazione densa tra scansioni distanti e la creazione di un atlante retinico agnostico rispetto alla risoluzione, superando così i limiti delle metodologie tradizionali bidimensionali e dipendenti dalla risoluzione.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

OODEval: Evaluating Large Language Models on Object-Oriented Design

Questo studio introduce OODEval, un benchmark manuale e una metrica unificata (CLUE) per valutare le capacità di progettazione orientata agli oggetti di 29 modelli linguistici, rivelando che, sebbene alcuni modelli raggiungano livelli comparabili agli studenti universitari, mostrano ancora significative carenze semantiche rispetto ai migliori progettisti umani.

Bingxu Xiao, Yunwei Dong, Yiqi Tang, Manqing Zhang, Yifan Zhou, Chunyan Ma, Yepang Liu2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING è un framework efficiente per la ricostruzione 3D in streaming che, grazie a una rappresentazione ibrida che disaccoppia primitivi geometrici espliciti e Gaussiane neurali, ottiene simultaneamente alta qualità di rendering e geometria accurata, superando i metodi esistenti in termini di velocità e precisione.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Questa ricerca dimostra che l'ordine di valutazione (prima la recensione o prima il voto) polarizza le recensioni dei consumatori, aumentando i voti estremi per servizi di alta o bassa qualità grazie a euristiche affettive e sforzo cognitivo, un effetto confermato sia da esperimenti controllati che da dati reali di piattaforme come Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang Liu2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

Questo articolo analizza empiricamente la letteratura robotica dal 1980 al 2024 per evidenziare la scarsa definizione del concetto di lavori "noiosi, sporchi e pericolosi" (DDD), integrando studi di scienze sociali per proporre un quadro concettuale che guidi la comunità robotica verso una comprensione più informata dell'impatto della tecnologia sul lavoro umano.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent è un sistema di inferenza agenziale semplice, veloce e consapevole del programma che, astruendo i flussi di lavoro come "LLM Programs" e gestendo in modo unificato risorse eterogenee come cache KV e strumenti esterni, supera le limitazioni delle architetture attuali ottenendo significativi miglioramenti nel throughput e nel risparmio di memoria.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran Arora2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ è un framework di Virtual Try-On universale e privo di addestramento che, integrando morfing strutturato dei capi, guida della posa principale e cucitura continua dei bordi, risolve le sfide di allineamento e coerenza strutturale per ottenere prestazioni all'avanguardia su scenari, tipi di abbigliamento e personaggi diversi senza necessità di riaddestramento.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

Il framework Similarity-as-Evidence (SaE) risolve il problema della sovracconfidenza nei Modelli Vision-Language per l'apprendimento attivo medico, calibrando le similarità testo-immagine attraverso una distribuzione Dirichlet per quantificare l'incertezza e selezionare in modo efficiente campioni informativi, ottenendo così prestazioni superiori e una migliore interpretabilità clinica.

Zhuofan Xie, Zishan Lin, Jinliang Lin, Jie Qi, Shaohua Hong, Shuo Li2026-03-12💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Il paper propone un framework di triangolazione guidato da template che integra i confini derivati da immagini in una griglia triangolare regolare, consentendo una discretizzazione stabile e parallela delle PDE con una migliore fedeltà geometrica e una riduzione degli elementi scadenti rispetto ai metodi tradizionali come la triangolazione di Delaunay vincolata.

Wei Feng, Haiyong Zheng2026-03-12💻 cs

Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs

Il paper propone InterNeg, un framework innovativo che migliora il rilevamento di distribuzioni fuori dal dominio (OOD) nei modelli visione-linguaggio (VLM) risolvendo l'inconsistenza delle distanze intra-modalità attraverso una selezione coerente di testi negativi e la generazione dinamica di embedding testuali guidati dalla distanza inter-modalità, ottenendo risultati state-of-the-art su diversi benchmark.

Zhikang Xu, Qianqian Xu, Zitai Wang, Cong Hua, Sicong Li, Zhiyong Yang, Qingming Huang2026-03-12💻 cs