BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Il paper introduce BandPO, un nuovo metodo di ottimizzazione per l'apprendimento per rinforzo dei modelli linguistici che sostituisce il clipping canonico con un operatore teorico unificato e consapevole delle probabilità, risolvendo il collo di bottiglia esplorativo e prevenendo il collasso dell'entropia senza compromettere la stabilità.

Yuan Li, Bo Wang, Yufei Gao + 4 more2026-03-06🤖 cs.AI

Semantic Communication-Enhanced Split Federated Learning for Vehicular Networks: Architecture, Challenges, and Case Study

Questo articolo presenta il framework SC-USFL, che integra la comunicazione semantica nell'apprendimento federato diviso per le reti veicolari, riducendo l'overhead di comunicazione e migliorando la privacy delle etichette attraverso la trasmissione selettiva di informazioni rilevanti per il compito e l'adattamento dinamico alle condizioni del canale.

Lu Yu, Zheng Chang, Ying-Chang Liang2026-03-06🤖 cs.LG

\nabla-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Il paper presenta \nabla-Reasoner, un nuovo framework che integra l'ottimizzazione differenziabile tramite discesa del gradiente nello spazio latente durante l'inferenza per affinare il processo decisionale dei LLM, ottenendo significativi miglioramenti nel ragionamento matematico e riducendo il numero di chiamate al modello rispetto ai metodi basati su ricerca discreta.

Peihao Wang, Ruisi Cai, Zhen Wang + 4 more2026-03-06🤖 cs.LG

Uncertainty-aware Blood Glucose Prediction from Continuous Glucose Monitoring Data

Questo studio dimostra che i modelli basati su Transformer con testine di output evidenziali, validati sul dataset HUPA-UCM, offrono il quadro più efficace per la previsione della glicemia e la quantificazione dell'incertezza nel diabete di tipo 1, garantendo sia maggiore accuratezza predittiva sia stime di incertezza meglio calibrate rispetto alle architetture LSTM e GRU.

Hai Siong Tan2026-03-06✓ Author reviewed 🔬 physics

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Il paper propone MOUE, un'architettura Mixture-of-Experts generalizzata che introduce la "larghezza virtuale" riutilizzando esperti universali tra i livelli per superare i limiti di scalabilità, risolvendo le sfide di routing e bilanciamento del carico attraverso una topologia rotazionale sfalsata e meccanismi di correzione specifici, ottenendo così prestazioni superiori rispetto ai modelli MoE tradizionali.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Lightweight and Scalable Transfer Learning Framework for Load Disaggregation

Il paper propone RefQuery, un framework di apprendimento per trasferimento leggero e scalabile per il monitoraggio non intrusivo dei carichi che, utilizzando un modello preaddestrato congelato e adattabile tramite embedding specifici per apparecchio, risolve le sfide di generalizzazione cross-dominio e permette un'implementazione efficiente su dispositivi edge.

L. E. Garcia-Marrero, G. Petrone, E. Monmasson2026-03-06🤖 cs.LG

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

Questo studio introduce un framework di apprendimento per rinforzo multi-operatore che integra la teoria della scelta discreta per modellare la competizione endogena nei sistemi AMoD, dimostrando come l'interazione strategica tra operatori porti a dinamiche di prezzo e riposizionamento delle flotte distinte rispetto agli scenari monopolistici.

Emil Kragh Toft, Carolin Schmidt, Daniele Gammelli + 1 more2026-03-06🤖 cs.LG

Non-Euclidean Gradient Descent Operates at the Edge of Stability

Il paper estende il fenomeno dell'Edge of Stability agli ottimizzatori non euclidei definendo una misura generalizzata di sharpness basata su norme arbitrarie, dimostrando sperimentalmente che anche metodi come la discesa del gradiente \ell_{\infty} e Block CD mostrano una progressiva affilatura seguita da oscillazioni attorno alla soglia teorica 2/η2/\eta.

Rustem Islamov, Michael Crawshaw, Jeremy Cohen + 1 more2026-03-06🔢 math

Measuring the Fragility of Trust: Devising Credibility Index via Explanation Stability (CIES) for Business Decision Support Systems

Questo articolo introduce l'indice CIES, una metrica matematicamente fondata per quantificare la stabilità delle spiegazioni dei modelli di Intelligenza Artificiale in contesti aziendali, fornendo agli operatori uno strumento per valutare l'affidabilità delle decisioni automatizzate di fronte a perturbazioni dei dati.

Alin-Gabriel Vaduva, Simona-Vasilica Oprea, Adela Bara2026-03-06🤖 cs.AI

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

Il paper introduce RepoLaunch, il primo agente basato su LLM in grado di automatizzare completamente la risoluzione delle dipendenze, la compilazione e l'estrazione dei risultati dei test per repository in qualsiasi linguaggio e piattaforma, abilitando così la creazione scalare di dataset per l'addestramento e il benchmarking di agenti di ingegneria del software con un intervento umano limitato alla sola progettazione dei task.

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG