cs.LG articoli | Gist.Science

Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization

Questo lavoro propone un algoritmo attore-critico naturale primale-duale per processi decisionali di Markov vincolati a orizzonte infinito con politiche generalizzate e critici neurali, dimostrando la convergenza globale e fornendo le prime garanzie teoriche di violazione cumulativa dei vincoli in questo contesto.

Anirudh Satheesh, Pankaj Kumar Barman, Washim Uddin Mondal, Vaneet Aggarwal2026-03-10🤖 cs.LG

Step-Size Decay and Structural Stagnation in Greedy Sparse Learning

Questo lavoro dimostra che, nell'apprendimento sparso greedy, un decadimento eccessivo del passo di apprendimento può causare una stagnazione strutturale anche in contesti a bassa dimensionalità, derivando limiti inferiori espliciti sull'errore di residuo e confermando tali risultati tramite esperimenti numerici.

Pablo M. Berná2026-03-10🤖 cs.LG

Deep Incentive Design with Differentiable Equilibrium Blocks

Il paper propone il Deep Incentive Design (DID), un framework differenziabile che utilizza blocchi di equilibrio differenziabili (DEB) per automatizzare la progettazione di incentivi in contesti multi-agente, risolvendo efficacemente compiti complessi come la progettazione di contratti, la schedulazione delle macchine e i problemi di equilibrio inverso attraverso un'unica rete neurale addestrata su una vasta gamma di scale e scenari.

Vinzenz Thoma, Georgios Piliouras, Luke Marris2026-03-10🤖 cs.LG

Reverse Distillation: Consistently Scaling Protein Language Model Representations

Il paper introduce "Reverse Distillation", un framework che decompone le rappresentazioni dei modelli linguistici proteici (PLM) in sottospazi ortogonali guidati da modelli più piccoli, creando embedding nidificati che garantiscono prestazioni superiori e una scalabilità coerente rispetto ai modelli PLM tradizionali.

Darius Catrina, Christian Bepler, Samuel Sledzieski, Rohit Singh2026-03-10🤖 cs.LG

A Lightweight MPC Bidding Framework for Brand Auction Ads

Questo articolo propone un framework leggero basato sul controllo predittivo del modello (MPC) per le aste pubblicitarie di brand, che utilizza la regressione isotonica online per costruire modelli monotoni direttamente dai dati in streaming, migliorando l'efficienza della spesa e il controllo dei costi senza la necessità di complessi modelli di machine learning.

Yuanlong Chen, Bowen Zhu, Bing Xia, Yichuan Wang2026-03-10🤖 cs.LG

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

Il paper propone FedShift, un nuovo attacco avversario distribuito "Nascondi e Trova" per l'apprendimento federato su grafi che, attraverso l'iniezione di uno "shifter" nascosto e un'ottimizzazione successiva, raggiunge un'efficacia superiore, un'efficienza temporale migliorata di oltre il 90% e la capacità di eludere le principali difese esistenti.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

Uncertainty-Gated Generative Modeling

Il paper propone l'Uncertainty-Gated Generative Modeling (UGGM), un approccio che utilizza l'incertezza come segnale di controllo interno per migliorare l'affidabilità e la riduzione degli errori nelle previsioni delle serie temporali finanziarie, come dimostrato dai risultati ottenuti sul dataset NYISO.

Xingrui Gu, Haixi Zhang2026-03-10🤖 cs.LG

Using GPUs And LLMs Can Be Satisfying for Nonlinear Real Arithmetic Problems

Il paper presenta GANRA, un nuovo solver SMT che combina l'accelerazione GPU e i modelli linguistici di grandi dimensioni (LLM) per risolvere in modo efficiente problemi di aritmetica reale non lineare, ottenendo prestazioni significativamente superiori rispetto allo stato dell'arte.

Christopher Brix, Julia Walczak, Nils Lommen, Thomas Noll2026-03-10🤖 cs.LG

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Il paper presenta MicroCoder-GRPO, un approccio ottimizzato di Reinforcement Learning che risolve i colli di bottiglia nell'addestramento dei modelli di generazione del codice attraverso innovazioni tecniche e nuovi dataset, ottenendo significativi miglioramenti delle prestazioni e fornendo approfondimenti chiave per l'addestramento stabile ed efficace.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Lindbladian Learning with Neural Differential Equations

Questo articolo presenta un metodo basato su equazioni differenziali neurali e massimizzazione della verosimiglianza per inferire in modo robusto i generatori dinamici di sistemi quantistici aperti, riuscendo a distinguere tra meccanismi coerenti e dissipativi su diverse piattaforme hardware e modelli fisici anche in presenza di elevato rumore.

Timothy Heightman, Roman Aseguinolaza Gallo, Edward Jiang, JRM Saavedra, Antonio Acín, Marcin Płodzien2026-03-10⚛️ quant-ph

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Il paper presenta MicroCoder, un dataset curato di problemi di programmazione competitiva recenti e difficili, ottenuto tramite un framework di elaborazione dati in quattro fasi con filtraggio automatico della difficoltà, che dimostra miglioramenti significativi nelle prestazioni dei modelli di generazione del codice su compiti complessi rispetto ai dataset esistenti.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Il paper presenta ProgAgent, un agente di apprendimento per rinforzo continuo che unifica un sistema ad alte prestazioni basato su JAX con un meccanismo di ricompensa progressiva derivato da video esperti, superando il problema della dimenticanza catastrofica e ottenendo prestazioni superiori rispetto agli agenti con memoria perfetta su benchmark robotici complessi.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Vision Transformers that Never Stop Learning

Questo lavoro indaga la perdita di plasticità nei Vision Transformers, identificando l'instabilità dei moduli di attenzione e il degrado delle reti feed-forward come cause principali, e propone ARROW, un ottimizzatore geometricamente consapevole che preserva la plasticità adattando le direzioni del gradiente per migliorare l'apprendimento continuo.

Caihao Sun, Mingqi Yuan, Shiyuan Wang, Jiayu Chen2026-03-10🤖 cs.LG

Toward Global Intent Inference for Human Motion by Inverse Reinforcement Learning

Questo studio dimostra che un'unica funzione di costo variabile nel tempo, agnostica rispetto al soggetto e alla postura e stimata tramite l'algoritmo MO-IRL, è in grado di prevedere con alta accuratezza i movimenti di raggiungimento umani, supportando l'esistenza di un principio unificato di ottimalità.

Sarmad Mehrdad, Maxime Sabbah, Vincent Bonnet, Ludovic Righetti2026-03-10🤖 cs.LG

Neural Precoding in Complex Projective Spaces

Questo articolo propone un framework di deep learning basato su spazi proiettivi complessi per la precodifica nei sistemi MU-MISO, che rimuove le ridondanze di fase globale per migliorare significativamente le prestazioni e la generalizzazione rispetto ai metodi convenzionali.

Zaid Abdullah, Merouane Debbah, Symeon Chatzinotas, Bjorn Ottersten2026-03-10🤖 cs.LG

Learning embeddings of non-linear PDEs: the Burgers' equation

Questo lavoro presenta un metodo basato su reti neurali fisicamente informate con una configurazione multi-testa e vincoli di ortogonalità per costruire spazi di embedding a bassa dimensionalità che catturano in modo robusto e interpretabile le dinamiche non lineari dell'equazione di Burgers viscosa.

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Lo studio dimostra che, per la stima della biomassa dei pascoli su dati agricoli scarsi, l'aggiornamento dei modelli di base (backbone) e l'uso di semplici moduli di fusione locali superano le complesse architetture di attenzione e SSM, rivelando il principio dell'"inversione della complessità di fusione".

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Il paper propone un nuovo framework di transfer learning basato su ottimizzazione bi-livello che combina un estrattore di caratteristiche universale addestrato su dati eterogenei con un adattatore specifico per dominio, permettendo una ricostruzione di immagini MRI sottocampionate di alta qualità anche in presenza di dati di training limitati.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Questo lavoro introduce il Gradient Iterated Temporal-Difference learning, un nuovo algoritmo che modifica l'apprendimento iterato calcolando i gradienti sui target mobili per creare un metodo TD basato sul gradiente che, pur risolvendo i problemi di divergenza, mantiene una velocità di apprendimento competitiva rispetto ai metodi semi-gradiente, come dimostrato su benchmark Atari.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

Guess & Guide: Gradient-Free Zero-Shot Diffusion Guidance

Il paper introduce un metodo leggero e privo di gradienti per la guida dei modelli di diffusione zero-shot, che risolve i problemi inversi bayesiani riducendo drasticamente i costi computazionali e ottenendo prestazioni ottimali senza necessità di riaddestramento.

Abduragim Shtanchaev, Albina Ilina, Yazid Janati, Arip Asadulaev, Martin Takác, Eric Moulines2026-03-10🤖 cs.LG

← Precedente Successivo →