Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Il paper presenta Dolphin, un metodo efficiente per la separazione del parlato audio-visivo che utilizza un codificatore video leggero basato su semantica labiale discreta e un meccanismo di attenzione globale-locale multi-scala, ottenendo prestazioni superiori allo stato dell'arte con una significativa riduzione dei parametri e del tempo di inferenza.

Kai Li, Kejun Gao, Xiaolin Hu2026-03-12💻 cs

PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease

Il paper presenta PD-Diag-Net, un metodo di diagnosi automatica end-to-end per il morbo di Parkinson basato su risonanza magnetica cerebrale che integra conoscenze cliniche prioritarie per migliorare l'accuratezza diagnostica e l'interpretabilità, ottenendo risultati superiori rispetto agli stati dell'arte sia su dati esterni che nella diagnosi precoce.

Shuai Shao, Yan Wang, Shu Jiang, Shiyuan Zhao, Di Yang, Jiangtao Wang, Yutong Bai, Jianguo Zhang2026-03-12💻 cs

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Il paper presenta Farsighted-LAM e SSM-VLA, nuovi framework che migliorano i modelli Vision-Language-Action integrando codifica spaziale geometrica, modellazione temporale multi-scala e un modulo di ragionamento visivo per superare le limitazioni nella comprensione spaziale e temporale, ottenendo prestazioni state-of-the-art in simulazione e nel mondo reale.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Il paper propone un framework di distillazione della conoscenza che combina modelli visione-linguaggio, reti neurali convoluzionali e una rete neurale a impulsi adattiva per abilitare il rilevamento di oggetti a vocabolario aperto su dati di eventi, superando la mancanza di informazioni testurali e preservando le caratteristiche temporali critiche.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Il paper propone una nuova strategia di apprendimento auto-supervisionato basata su una definizione di equivarianza e su perdite di splitting, che permette di ottenere stime imparziali della funzione di perdita supervisionata e raggiungere prestazioni all'avanguardia in problemi inversi con dati incompleti, come la tomografia computerizzata e la risonanza magnetica accelerata.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Il paper presenta SymSkill, un framework unificato che apprende simultaneamente astrazioni simboliche e abilità motorie da dimostrazioni non etichettate per abilitare la pianificazione composizionale e il recupero reattivo in tempo reale durante compiti di manipolazione a lungo raggio sia in simulazione che su robot reali.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs

From Text to Alpha: Can LLMs Track Evolving Signals in Corporate Disclosures?

Questo studio dimostra che un framework basato su LLM, che estrae span testuali contestuali e misura le variazioni semantiche nelle disclosure aziendali, supera i metodi tradizionali basati su NER, generando un alpha aggiustato per il rischio più che doppio e una maggiore capacità predittiva.

Chanyeol Choi, Yoon Kim, Yu Yu, Young Cha, V. Zach Golkhou, Igor Halperin, Georgios Papaioannou, Minkyu Kim, Zhangyang Wang, Jihoon Kwon, Minjae Kim, Alejandro Lopez-Lira, Yongjae Lee2026-03-12💻 cs

SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Il paper presenta SDGraph, un'architettura di apprendimento profondo basata su un'architettura grafica sparsa-densa che, attraverso una proposta di rappresentazione multilivello (livello schizzo, tratto e punto), identifica e sfrutta le informazioni efficaci negli schizzi a mano libera per migliorare significativamente le prestazioni in compiti di classificazione, recupero e generazione.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Il paper presenta InstantSfM, un sistema SfM globale nativo per GPU e compatibile con PyTorch che risolve l'ambiguità della scala integrando priori di profondità metrica e garantisce stabilità numerica, ottenendo un'efficienza fino a 40 volte superiore rispetto a COLMAP mantenendo un'accuratezza di ricostruzione comparabile.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Il paper introduce REALM, un framework basato su agenti MLLM che esegue la segmentazione e l'editing 3D in mondi aperti su rappresentazioni Gaussian Splatting, utilizzando una strategia di grounding spaziale globale-locale per interpretare istruzioni complesse senza necessità di un addestramento specifico 3D.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs