Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc Le2026-03-11🤖 cs.AI

AlphaApollo: A System for Deep Agentic Reasoning

Il paper presenta AlphaApollo, un sistema di ragionamento agentic che affronta le limitazioni nella risoluzione di problemi complessi e nell'evoluzione affidabile dei modelli fondazione attraverso tre componenti chiave: ragionamento multi-turno, apprendimento multi-turno e evoluzione multi-round, dimostrando significativi miglioramenti delle prestazioni su vari benchmark matematici.

Zhanke Zhou, Chentao Cao, Xiao Feng, Xuan Li, Zongze Li, Xiangyu Lu, Jiangchao Yao, Weikai Huang, Tian Cheng, Jianghangfan Zhang, Tangyu Jiang, Linrui Xu, Yiming Zheng, Brando Miranda, Tongliang Liu, Sanmi Koyejo, Masashi Sugiyama, Bo Han2026-03-11🤖 cs.AI

RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

Il paper presenta RL-100, un framework di apprendimento per rinforzo nel mondo reale basato su politiche visuo-motorie a diffusione, che unifica imitazione e rinforzo per ottenere un controllo robotico ad alta frequenza, stabile e robusto, raggiungendo il 100% di successo in 1000 episodi su otto compiti diversi e dimostrando capacità di adattamento zero-shot e few-shot in scenari dinamici complessi.

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu2026-03-11🤖 cs.AI

Bradley-Terry Policy Optimization for Generative Preference Modeling

Il paper introduce BTPO, un metodo di ottimizzazione che risolve la sfida dell'addestramento di modelli generativi con ragionamento a catena di pensiero (CoT) su compiti basati su preferenze umane, derivando un stimatore Monte Carlo coerente per massimizzare la verosimiglianza di Bradley-Terry trattando il processo di ragionamento come una variabile latente.

Shengyu Feng, Yun He, Shuang Ma, Beibin Li, Yuanhao Xiong, Songlin Li, Karishma Mandyam, Julian Katz-Samuels, Shengjie Bi, Licheng Yu, Hejia Zhang, Karthik Abinav Sankararaman, Han Fang, Yiming Yang, Manaal Faruqui2026-03-11🤖 cs.LG

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

GraphKeeper: Graph Domain-Incremental Learning via Knowledge Disentanglement and Preservation

Il paper presenta GraphKeeper, un nuovo approccio per l'apprendimento incrementale di dominio sui grafi che risolve il problema dell'oblio catastrofico attraverso la svincolamento e la preservazione della conoscenza, ottenendo risultati all'avanguardia e integrandosi efficacemente con diversi modelli fondazionali per i grafi.

Zihao Guo, Qingyun Sun, Ziwei Zhang, Haonan Yuan, Huiping Zhuang, Xingcheng Fu, Jianxin Li2026-03-11🤖 cs.AI

Lightweight Time Series Data Valuation on Time Series Foundation Models via In-Context Finetuning

Il paper propone LTSV, un metodo leggero per la valutazione dei dati nelle serie temporali basato sui modelli fondazionali, che utilizza il fine-tuning in contesto e l'aggregazione di blocchi temporali per stimare in modo efficiente e preciso il contributo dei singoli campioni preservando le dipendenze temporali.

Shunyu Wu, Tianyue Li, Yixuan Leng, Jingyi Suo, Jian Lou, Dan Li, See-Kiong Ng2026-03-11🤖 cs.AI

TSFM in-context learning for time-series classification of bearing-health status

Il paper presenta un metodo di classificazione basato sull'apprendimento in contesto con modelli fondazione per serie temporali (TSFM) che, senza necessità di riaddestramento, valuta lo stato di salute dei cuscinetti analizzando dati vibrazionali, aprendo la strada a sistemi di manutenzione predittiva scalabili e forniti come servizio.

Michel Tokic, Slobodan Djukanovic, Anja von Beuningen, Cheng Feng2026-03-11🤖 cs.AI

An Interpretable Operator-Learning Model for Electric Field Profile Reconstruction in Discharges Based on the EFISH Method

Questo studio introduce il Decoder-DeepONet (DDON), un modello di apprendimento automatico interpretabile basato sull'operatore che supera i metodi precedenti per ricostruire con maggiore precisione e generalizzabilità i profili del campo elettrico nei scarichi di plasma non in equilibrio a partire dai segnali EFISH, anche in presenza di dati incompleti.

Zhijian Yang, Edwin Setiadi Sugeng, Mhedine Alicherif, Tat Loon Chng2026-03-11🤖 cs.LG

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Il paper presenta ELERAG, un'architettura RAG potenziata dal Linking di Entità e da una strategia di riordinamento ibrida, che dimostra come l'integrazione di segnali fattuali basati su Wikidata migliori significativamente l'accuratezza nei sistemi di domanda-risposta educativi in italiano, superando i metodi tradizionali nei contesti specifici di dominio pur mantenendo prestazioni competitive su dataset generali.

Francesco Granata, Francesco Poggi, Misael Mongiovì2026-03-11🤖 cs.AI

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Il paper presenta ADHint, un metodo di apprendimento per rinforzo che integra dinamicamente le difficoltà dei campioni e dei roll-out nella pianificazione degli indizi e nella stima del vantaggio, migliorando così l'efficienza dei campioni, la stabilità dell'addestramento e la capacità di generalizzazione del ragionamento.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Do Spatial Descriptors Improve Multi-DoF Finger Movement Decoding from HD sEMG?

Lo studio conclude che, sebbene il metodo MLD-BFM basato su descrittori spaziali abbia ottenuto le migliori prestazioni nella decodifica del movimento di cinque dita, il suo vantaggio rispetto alle tradizionali caratteristiche temporali non è statisticamente significativo, suggerendo che le registrazioni ad alta densità codificano già informazioni spaziali sufficienti attraverso descrittori basati sull'ampiezza.

Ricardo Gonçalves Molinari, Leonardo Abdala Elias2026-03-11🤖 cs.LG