Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

Il paper presenta Shuffle-R1, un framework efficiente per l'addestramento con apprendimento per rinforzo dei modelli linguistici multimodali che risolve le problematiche di collasso del vantaggio e silenziamento dei rollouts attraverso tecniche di campionamento e mescolamento dinamico dei dati, migliorando significativamente le capacità di ragionamento con un minimo sovraccarico computazionale.

Linghao Zhu, Yiran Guan, Dingkang Liang + 6 more2026-03-04🤖 cs.AI

Nonparametric Reaction Coordinate Optimization with Histories: A Framework for Rare Event Dynamics

Il paper presenta un nuovo quadro non parametrico che ottimizza le coordinate di reazione incorporando la storia delle traiettorie, permettendo un'analisi robusta e precisa di eventi rari in sistemi complessi (come il ripiegamento delle proteine o i dati clinici longitudinali) senza richiedere un campionamento estensivo o dati di riferimento noti.

Polina V. Banushkina, Sergei V. Krivov2026-03-04🧬 q-bio

Learning Acrobatic Flight from Preferences

Questo lavoro propone Reward Ensemble under Confidence (REC), un framework probabilistico per l'apprendimento basato sulle preferenze che, modellando l'incertezza della ricompensa, permette di insegnare a un drone acrobatico complesse manovre di volo direttamente dal feedback umano, superando le limitazioni delle funzioni di ricompensa manuali e ottenendo un trasferimento zero-shot efficace nel mondo reale.

Colin Merk, Ismail Geles, Jiaxu Xing + 3 more2026-03-04🤖 cs.LG

Tabular foundation model for GEOAI benchmark problems BM/AirportSoilProperties/2/2025

Questo studio dimostra che il modello fondazionale TabPFN, applicato in modalità zero-training e few-shot, supera i modelli bayesiani gerarchici convenzionali nella previsione delle proprietà meccaniche del suolo e nell'imputazione dei dati mancanti, offrendo maggiore accuratezza, calibrazione delle incertezze ed efficienza computazionale nel contesto del benchmark GEOAI.

Taiga Saito, Yu Otake, Stephen Wu2026-03-04🤖 cs.LG

Towards a more realistic evaluation of machine learning models for bearing fault diagnosis

Questo studio propone una metodologia di valutazione rigorosa e priva di "data leakage" per la diagnosi dei guasti ai cuscinetti basata sull'apprendimento automatico, evidenziando come la partizione dei dati a livello di singolo cuscinetto e la diversità del dataset siano fondamentali per garantire la generalizzabilità e l'affidabilità dei modelli nelle applicazioni industriali reali.

João Paulo Vieira, Victor Afonso Bauler, Rodrigo Kobashikawa Rosa + 1 more2026-03-04⚡ eess

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Questo articolo introduce un quadro teorico basato sulla complessità di Kolmogorov per definire obiettivi di lunghezza di descrizione asintoticamente ottimali per i Transformer, dimostrando la loro esistenza e analizzando un obiettivo variazionale pratico che, sebbene favorisca soluzioni a bassa complessità con forte generalizzazione, pone sfide significative per l'ottimizzazione standard.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Questo lavoro teorico analizza i vantaggi e le limitazioni dell'apprendimento per rinforzo nella pianificazione dei modelli linguistici, dimostrando che, sebbene superi la fine-tuning supervisionata grazie all'esplorazione, la politica di gradiente soffre di un collasso della diversità, mentre l'apprendimento Q offre vantaggi superiori nella preservazione della diversità e nell'apprendimento off-policy, a condizione di un'attenta progettazione della ricompensa.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Questo studio introduce MR-GPTQ, un algoritmo di quantizzazione specializzato che risolve le limitazioni di precisione dei formati FP4 micro-scala (MXFP4 e NVFP4) tramite trasformate di Hadamard e ottimizzazioni specifiche, ottenendo significativi miglioramenti sia nella velocità di esecuzione che nella precisione rispetto alle soluzioni attuali.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev + 8 more2026-03-04🤖 cs.LG

Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

Questo lavoro introduce un quadro teorico e pratico per l'adattamento fine dei modelli di diffusione e flusso attraverso la modellazione delle distribuzioni a livelli di rumore intermedi, proponendo l'algoritmo P-GRAFT per la massimizzazione della ricompensa e la correzione inversa del rumore per migliorare le prestazioni senza ricompense esplicite, con risultati empirici superiori su diverse attività generative.

Gautham Govind Anil, Shaan Ul Haque, Nithish Kannen + 3 more2026-03-04🤖 cs.AI

Lightweight Transformer for EEG Classification via Balanced Signed Graph Algorithm Unrolling

Questo articolo presenta un metodo di classificazione EEG basato su un algoritmo di denoising per grafi firmati bilanciati, che viene "srotolato" in una rete neurale leggera e interpretabile per distinguere pazienti epilettici da soggetti sani con un numero di parametri drasticamente inferiore rispetto alle architetture deep learning tradizionali.

Junyi Yao, Parham Eftekhar, Gene Cheung + 3 more2026-03-04🤖 cs.LG

AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks

Il paper introduce AdaBet, un metodo privo di gradienti che seleziona in modo efficiente gli strati più importanti per l'adattamento on-device delle reti neurali pre-addestrate analizzando le caratteristiche topologiche degli spazi di attivazione tramite numeri di Betti, ottenendo così una maggiore accuratezza e un ridotto consumo di memoria senza richiedere etichette o retropropagazione.

Irene Tenison, Soumyajit Chatterjee, Fahim Kawsar + 1 more2026-03-04🤖 cs.LG