cs.LG articoli | Gist.Science

Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

Il paper propone l'algoritmo FlexDOME, il primo metodo a garantire teoricamente una violazione dei vincoli forte quasi costante, un regret sublineare e la convergenza all'ultima iterazione nell'apprendimento per rinforzo online sicuro per processi decisionali di Markov vincolati, ottenuti attraverso margini di sicurezza decrescenti e regolarizzazione in un quadro primal-dual.

Qian Zuo, Zhiyong Wang, Fengxiang He2026-03-04🤖 cs.LG

MoToRec: Sparse-Regularized Multimodal Tokenization for Cold-Start Recommendation

Il paper presenta MoToRec, un framework innovativo che risolve il problema del cold-start nelle raccomandazioni trasformando i dati multimodali in token semantici discreti tramite un RQ-VAE regolarizzato con sparsità, migliorando significativamente le prestazioni rispetto agli stati dell'arte.

Jialin Liu, Zhaorui Zhang, Ray C. C. Cheung2026-03-04🤖 cs.LG

Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage

Il documento presenta Fun-DDPS, un framework generativo che combina modelli di diffusione nello spazio delle funzioni con surrogati neurali differenziabili per superare le sfide dei problemi inversi nella cattura e stoccaggio del carbonio, ottenendo risultati significativamente più precisi ed efficienti rispetto ai metodi deterministici e alle tecniche di campionamento tradizionali.

Xin Ju, Jiachen Yao, Anima Anandkumar + 2 more2026-03-04🤖 cs.LG

A Penalty Approach for Differentiation Through Black-Box Quadratic Programming Solvers

Il paper presenta dXPP, un framework di differenziazione basato su penalità che decolla la risoluzione di problemi di programmazione quadratica (QP) dalla fase di differenziazione, consentendo l'uso di solver black-box e migliorando efficienza e robustezza rispetto ai metodi tradizionali basati sul sistema KKT.

Yuxuan Linghu, Zhiyuan Liu, Qi Deng2026-03-04🤖 cs.LG

The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Questo studio dimostra che ottimizzatori basati su momentum come Adam e Muon, quando applicati a reti neurali omogenee lisce, seguono traiettorie approssimate di discesa ripida normalizzata con un tasso di apprendimento decrescente, portando a una bias implicito verso punti KKT di problemi di massimizzazione del margine la cui identità dipende dalla norma scelta dall'ottimizzatore.

Eitan Gronich, Gal Vardi2026-03-04📊 stat

Selecting Optimal Variable Order in Autoregressive Ising Models

Il paper propone un metodo per selezionare l'ordine ottimale delle variabili nei modelli di Ising autoregressivi, sfruttando la struttura del campo casuale di Markov sottostante per ridurre la complessità del modello e migliorare la qualità dei campioni generati rispetto agli ordini variabili naive.

Shiba Biswal, Marc Vuffray, Andrey Y. Lokhov2026-03-04📊 stat

A Researcher's Guide to Empirical Risk Minimization

Questa guida fornisce un quadro modulare per derivare limiti di regret ad alta probabilità nell'Empirical Risk Minimization, organizzando le dimostrazioni in una ricetta a tre passaggi basata sulla complessità di Rademacher localizzata e estendendo l'analisi ai casi con componenti di disturbo, inclusi gli scenari in cui i dati sono condivisi tra la stima dei disturbi e l'ERM.

Lars van der Laan2026-03-04📊 stat

SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference

Il paper presenta SigmaQuant, un framework di quantizzazione eterogenea adattivo e consapevole dell'hardware che bilancia efficienza e accuratezza nell'inferenza di DNN su dispositivi edge senza richiedere una ricerca esaustiva dello spazio di progettazione.

Qunyou Liu, Pengbo Yu, Marina Zapater + 1 more2026-03-04🤖 cs.LG

PSQE: A Theoretical-Practical Approach to Pseudo Seed Quality Enhancement for Unsupervised Multimodal Entity Alignment

Il paper propone PSQE, un approccio teorico-pratico che migliora l'allineamento di entità multimodale non supervisionato potenziando la qualità e l'equilibrio dei pseudo-seed tramite informazioni multimodali e ricampionamento, risolvendo così il problema della copertura sbilanciata del grafo e migliorando le prestazioni dei modelli basati su apprendimento contrastivo.

Yunpeng Hong, Chenyang Bu, Jie Zhang + 3 more2026-03-04🤖 cs.LG

Tell Me What To Learn: Generalizing Neural Memory to be Controllable in Natural Language

Questo lavoro propone un sistema di memoria neurale generalizzato che consente aggiornamenti flessibili e selettivi basati su istruzioni in linguaggio naturale, permettendo agli agenti adattivi di gestire fonti di informazioni eterogenee in ambienti non stazionari senza i costi e la fragilità delle tecniche di adattamento tradizionali.

Max S. Bennett, Thomas P. Zollo, Richard Zemel2026-03-04🤖 cs.LG

FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation

Il paper presenta FlexGuard, un moderatore di contenuti LLM basato su un punteggio di rischio continuo e calibrato che supera le limitazioni dei classificatori binari fissi, garantendo una maggiore robustezza e adattabilità a diversi livelli di severità nell'applicazione delle regole di sicurezza.

Zhihao Ding, Jinming Li, Ze Lu + 1 more2026-03-04🤖 cs.AI

A Boundary Integral-based Neural Operator for Mesh Deformation

Questo articolo presenta un operatore neurale basato su integrali di contorno (BINO) che risolve efficientemente problemi di deformazione di mesh formulandoli come equazioni di elasticità lineare, permettendo di calcolare i campi di spostamento interni direttamente dalle condizioni al contorno con elevata accuratezza e rispetto dei principi fisici.

Zhengyu Wu, Jun Liu, Wei Wang2026-03-04🤖 cs.LG

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

Questo lavoro estende le garanzie teoriche dell'apprendimento per rinforzo offline a spazi di azione grandi o continui utilizzando politiche parametriche, superando i limiti degli algoritmi precedenti basati sulla discesa dello specchio per stato e rivelando una sorprendente unificazione tra RL offline e apprendimento per imitazione.

Xiang Li, Yuheng Zhang, Nan Jiang2026-03-04🤖 cs.AI

What Is the Alignment Tax?

Questo lavoro fornisce una teoria geometrica formale dell'"alignment tax" nello spazio delle rappresentazioni, definendo il suo tasso come proiezione quadrata della direzione di sicurezza sul sottospazio delle capacità, derivando un fronte di Pareto ricorsivo e una legge di scala che scompone il costo in una componente irriducibile e un residuo di impacchettamento.

Robin Young2026-03-04📈 econ

A medical coding language model trained on clinical narratives from a population-wide cohort of 1.8 million patients

Questo studio presenta un modello linguistico addestrato su 5,8 milioni di cartelle cliniche di 1,8 milioni di pazienti in Danimarca orientale che, oltre a raggiungere elevate prestazioni nell'automazione della codifica ICD-10, ha rivelato un sistematico sottocodificamento delle diagnosi secondarie con implicazioni significative per la ricerca epidemiologica e la sorveglianza sanitaria.

Joakim Edin, Sedrah Butt Balaganeshan, Annike Kjølby Kristensen + 3 more2026-03-04🤖 cs.LG

CoPeP: Benchmarking Continual Pretraining for Protein Language Models

Il paper introduce CoPeP, un nuovo benchmark per valutare l'apprendimento continuo nei modelli linguistici proteici, dimostrando che l'incorporazione di metadati temporali e l'uso di metodi specifici migliorano le prestazioni rispetto all'addestramento congiunto tradizionale.

Darshan Patil, Pranshu Malviya, Mathieu Reymond + 2 more2026-03-04🤖 cs.LG

IDER: IDempotent Experience Replay for Reliable Continual Learning

Il paper propone IDER, un nuovo approccio basato sulla proprietà di idempotenza che, integrando una distillazione dell'idempotenza con i metodi di replay esistenti, risolve il problema della dimenticanza catastrofica migliorando al contempo l'accuratezza e l'affidabilità delle previsioni nell'apprendimento continuo.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Il paper presenta BornoViT, un modello Vision Transformer leggero ed efficiente con soli 0,65 milioni di parametri, che classifica con successo i caratteri e le cifre scritti a mano in bengalese raggiungendo un'accuratezza del 95,77% sul dataset BanglaLekha e del 91,51% su un dataset autonomo, offrendo una soluzione ottimizzata per ambienti con risorse limitate.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

Demystifying Group Relative Policy Optimization: Its Policy Gradient is a U-Statistic

Questo lavoro fornisce un quadro teorico unificato che dimostra come l'ottimizzazione della politica relativa ai gruppi (GRPO) sia una statistica U, permettendo di derivare limiti di errore, dimostrare l'equivalenza asintotica con un algoritmo "oracolo" e stabilire una legge di scalatura universale per la dimensione del gruppo.

Hongyi Zhou, Kai Ye, Erhan Xu + 4 more2026-03-04📊 stat

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Questo studio applica la Teoria dell'Apprendimento Singolare (SLT) per interpretare il fenomeno del "grokking" come una transizione di fase tra bacini di soluzione competitivi, derivando espressioni analitiche per il coefficiente di apprendimento locale e fornendo evidenze empiriche che collegano tale coefficiente alla dinamica di generalizzazione nelle reti quadratiche.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait + 1 more2026-03-04📊 stat

← Precedente Successivo →