Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Il paper presenta Farsighted-LAM e SSM-VLA, nuovi framework che migliorano i modelli Vision-Language-Action integrando codifica spaziale geometrica, modellazione temporale multi-scala e un modulo di ragionamento visivo per superare le limitazioni nella comprensione spaziale e temporale, ottenendo prestazioni state-of-the-art in simulazione e nel mondo reale.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Il paper propone un framework di distillazione della conoscenza che combina modelli visione-linguaggio, reti neurali convoluzionali e una rete neurale a impulsi adattiva per abilitare il rilevamento di oggetti a vocabolario aperto su dati di eventi, superando la mancanza di informazioni testurali e preservando le caratteristiche temporali critiche.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Il paper propone una nuova strategia di apprendimento auto-supervisionato basata su una definizione di equivarianza e su perdite di splitting, che permette di ottenere stime imparziali della funzione di perdita supervisionata e raggiungere prestazioni all'avanguardia in problemi inversi con dati incompleti, come la tomografia computerizzata e la risonanza magnetica accelerata.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Il paper presenta SymSkill, un framework unificato che apprende simultaneamente astrazioni simboliche e abilità motorie da dimostrazioni non etichettate per abilitare la pianificazione composizionale e il recupero reattivo in tempo reale durante compiti di manipolazione a lungo raggio sia in simulazione che su robot reali.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

Questo studio dimostra che un framework basato su LLM, che estrae span testuali contestuali e misura le variazioni semantiche nelle disclosure aziendali, supera i metodi tradizionali basati su NER, generando un alpha aggiustato per il rischio più che doppio e una maggiore capacità predittiva.

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Il paper presenta SDGraph, un'architettura di apprendimento profondo basata su un'architettura grafica sparsa-densa che, attraverso una proposta di rappresentazione multilivello (livello schizzo, tratto e punto), identifica e sfrutta le informazioni efficaci negli schizzi a mano libera per migliorare significativamente le prestazioni in compiti di classificazione, recupero e generazione.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Il paper presenta InstantSfM, un sistema SfM globale nativo per GPU e compatibile con PyTorch che risolve l'ambiguità della scala integrando priori di profondità metrica e garantisce stabilità numerica, ottenendo un'efficienza fino a 40 volte superiore rispetto a COLMAP mantenendo un'accuratezza di ricostruzione comparabile.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Il paper introduce REALM, un framework basato su agenti MLLM che esegue la segmentazione e l'editing 3D in mondi aperti su rappresentazioni Gaussian Splatting, utilizzando una strategia di grounding spaziale globale-locale per interpretare istruzioni complesse senza necessità di un addestramento specifico 3D.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Il paper presenta EyeAgent, il primo sistema di intelligenza artificiale agenziale multimodale per l'oftalmologia che, integrando un modello linguistico con 53 strumenti specializzati, fornisce supporto decisionale clinico interpretabile e migliora significativamente l'accuratezza diagnostica e la qualità dei referti, specialmente tra gli oftalmologi junior.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs