EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Il paper introduce EgoCross, un benchmark completo per valutare la capacità di generalizzazione cross-dominio dei Modelli Linguistici Multimodali nella risposta a domande su video in prima persona, coprendo scenari complessi come chirurgia, industria, sport estremi e visione animale e rivelando le attuali limitazioni dei modelli esistenti.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Il paper presenta TaoSR1, un framework che adatta i Large Language Models per la ricerca di rilevanza nell'e-commerce attraverso un processo in tre fasi di addestramento con Chain-of-Thought e ottimizzazione delle preferenze, risolvendo problemi di allucinazione e fattibilità di deployment per ottenere prestazioni superiori rispetto ai modelli basati su BERT.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Hardness of Approximation

Questo articolo dimostra come l'agente di mutazione del codice basato su LLM chiamato AlphaEvolve possa essere utilizzato per ottenere nuovi risultati di inapprossimabilità e limiti superiori/inferiori per problemi combinatori come MAX-CUT, MAX-4-CUT, MAX-3-CUT e il TSP metrico, migliorando gli stati dell'arte attuali attraverso la scoperta automatizzata di riduzioni e gadget.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Il paper presenta RL-100, un framework di apprendimento per rinforzo nel mondo reale basato su politiche visuo-motorie a diffusione, che unifica imitazione e rinforzo per ottenere un controllo robotico ad alta frequenza, stabile e robusto, raggiungendo il 100% di successo in 1000 episodi su otto compiti diversi e dimostrando capacità di adattamento zero-shot e few-shot in scenari dinamici complessi.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Il paper presenta GraphKeeper, un nuovo approccio per l'apprendimento incrementale di dominio sui grafi che risolve il problema dell'oblio catastrofico attraverso la svincolamento e la preservazione della conoscenza, ottenendo risultati all'avanguardia e integrandosi efficacemente con diversi modelli fondazionali per i grafi.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI