cs.LG articoli | Gist.Science

Optimistic Policy Regularization

Il paper introduce l'Optimistic Policy Regularization (OPR), un meccanismo leggero che previene la convergenza prematura negli agenti di deep reinforcement learning preservando le traiettorie storicamente di successo, migliorando così l'efficienza dei campioni e le prestazioni finali su ambienti Atari e di cyber-difesa.

Mai Pham, Vikrant Vaze, Peter Chin2026-03-10🤖 cs.LG

Best-of-Tails: Bridging Optimism and Pessimism in Inference-Time Alignment

Il paper introduce Best-of-Tails (BoT), un framework di allineamento a tempo di inferenza che adatta dinamicamente la strategia di selezione tra ottimismo e pessimismo in base alla distribuzione delle code dei premi, utilizzando la divergenza di Tsallis e lo stimatore di Hill per migliorare le prestazioni rispetto ai metodi fissi esistenti.

Hsiang Hsu, Eric Lei, Chun-Fu Chen2026-03-10🤖 cs.LG

NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning

Il paper presenta NEST, un framework di posizionamento dei dispositivi per l'addestramento distribuito di deep learning che unifica la parallelizzazione, la modellazione della topologia di rete e la fattibilità della memoria tramite programmazione dinamica strutturata, ottenendo fino a 2,43 volte una maggiore velocità di elaborazione rispetto alle soluzioni esistenti.

Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya Mahajan2026-03-10🤖 cs.LG

Multi-Agent Reinforcement Learning with Submodular Reward

Questo articolo introduce un nuovo quadro teorico per l'apprendimento per rinforzo multi-agente cooperativo con ricompense submodulari, proponendo algoritmi con garanzie provate di efficienza nei campioni e bound sul rimpianto che superano la maledizione della dimensionalità.

Wenjing Chen, Chengyuan Qian, Shuo Xing, Yi Zhou, Victoria Crawford2026-03-10🤖 cs.LG

CREDO: Epistemic-Aware Conformalized Credal Envelopes for Regression

Il paper introduce CREDO, un metodo che combina envelope credali interpretabili con la calibrazione conformale per generare intervalli di previsione per la regressione che garantiscono una copertura valida e decomponibile in rumore aleatorio, inflazione epistemica e slack di calibrazione.

Luben M. C. Cabezas, Sabina J. Sloman, Bruno M. Resende, Fanyi Wu, Michele Caprio, Rafael Izbicki2026-03-10🤖 cs.LG

Joint 3D Gravity and Magnetic Inversion via Rectified Flow and Ginzburg-Landau Guidance

Questo articolo presenta un nuovo framework per l'inversione congiunta 3D di gravità e magnetismo basato su flussi rettificati e un regolarizzatore di Ginzburg-Landau, progettato per superare i limiti delle soluzioni deterministiche tradizionali catturando l'intera distribuzione delle possibili densità sotterranee.

Dhruman Gupta (Ashoka University), Yashas Shende (Ashoka University), Aritra Das (Ashoka University), Chanda Grover Kamra (Ashoka University), Debayan Gupta (Ashoka University)2026-03-10🤖 cs.LG

Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance

Il paper presenta un algoritmo basato su epoche e una corrispondente limite inferiore che caratterizzano il tasso minimax esatto per il regret nel commercio bilaterale contestuale con valutazioni a coda pesante (momento finito $p \in (1,2)$ ), interpolando tra il tasso non parametrico classico e quello lineare.

Hangyi Zhao2026-03-10🤖 cs.LG

Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration

Il paper presenta \textbf{\texttt{C3}}, un metodo di assegnazione del credito controfattuale contestuale che risolve il problema della diffusione del segnale di ricompensa nei sistemi multi-agente basati su LLM isolando l'impatto causale dei singoli messaggi tramite replay a continuazione fissa e una baseline leave-one-out, migliorando così le prestazioni terminali e la fedeltà dell'assegnazione del credito.

Yanjun Chen, Yirong Sun, Hanlin Wang, Xinming Zhang, Xiaoyu Shen, Wenjie Li, Wei Zhang2026-03-10🤖 cs.LG

IGLU: The Integrated Gaussian Linear Unit Activation Function

Il paper introduce IGLU, una nuova funzione di attivazione parametrica basata su una distribuzione di Cauchy che garantisce gradienti non nulli e robustezza, offrendo prestazioni competitive rispetto a ReLU e GELU su diversi benchmark e un'approssimazione efficiente (IGLU-Approx) che riduce i costi computazionali.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Il paper presenta SymLang, un framework unificato che combina grammatiche vincolate dalla simmetria, sintesi di programmi guidata da modelli linguistici e selezione bayesiana di modelli per scoprire equazioni governative interpretabili e fisicamente coerenti a partire da osservazioni rumorose e parziali, superando significativamente gli approcci esistenti in termini di accuratezza strutturale e stabilità.

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani2026-03-10🤖 cs.LG

Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy

Il paper propone l'attenzione stocastica, un metodo di campionamento senza addestramento basato sulla dinamica di Langevin applicata all'energia di Hopfield moderna, che trasforma i meccanismi di attenzione esistenti in generatori diversificati e controllabili tramite temperatura, superando le prestazioni dei modelli appresi senza richiedere modifiche architetturali.

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-10🤖 cs.LG

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

Questo studio presenta un modello surrogato basato su un operatore neurale informato dalla fisica (PINO) che accelera di oltre 10.000 volte l'analisi della ritenzione dei dati nei transistor a effetto di campo ferroelettrico verticali (Fe-VNAND) rispetto alle simulazioni TCAD tradizionali, consentendo una rapida ottimizzazione dei dispositivi mantenendo l'accuratezza fisica.

Gyujun Jeong (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Sungwon Cho (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Minji Shon (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Namhoon Kim (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Woohyun Hwang (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Kwangyou Seo (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Suhwan Lim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Wanki Kim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Daewon Ha (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Prasanna Venkatesan (NVIDIA, Santa Clara, CA, USA), Kihang Youn (NVIDIA, Santa Clara, CA, USA), Ram Cherukuri (NVIDIA, Santa Clara, CA, USA), Yiyi Wang (NVIDIA, Santa Clara, CA, USA), Suman Datta (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Asif Khan (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Shimeng Yu (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA)2026-03-10🤖 cs.LG

Single-pass Possibilistic Clustering with Damped Window Footprints

Il documento propone un algoritmo di clustering possibilistico in un singolo passaggio (SPC) per dati in streaming, che utilizza finestre smorzate e l'unione delle covarianze per modellare cluster non sferici, ottenendo prestazioni superiori rispetto ad altri metodi esistenti.

Jeffrey Dale, James Keller, Aquila Galusha2026-03-10🤖 cs.LG

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Il paper propone un nuovo paradigma di aumento dei dati che, ispirandosi alle procedure di progettazione industriale, utilizza modelli linguistici di grandi dimensioni per generare programmi CAD più diversificati e complessi, arricchendo i dataset esistenti con forme organiche e curvature basate su spline tipiche dei progetti industriali reali.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

Fairness May Backfire: When Leveling-Down Occurs in Fair Machine Learning

Questo studio dimostra che, mentre l'uso di attributi sensibili nelle decisioni algoritmiche migliora inevitabilmente gli esiti per i gruppi svantaggiati, l'approccio "cieco" agli attributi può paradossalmente peggiorare le condizioni di tutti i gruppi a causa di un effetto di livellamento verso il basso.

Yi Yang, Xiangyu Chang, Pei-yu Chen2026-03-10🤖 cs.LG

XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost

Il paper presenta XGenBoost, un approccio generativo basato su XGBoost che utilizza un modello DDIM per dataset piccoli e un modello autoregressivo gerarchico per dataset grandi, superando le prestazioni dei metodi esistenti nella sintesi di dati tabulari misti con costi di addestramento ridotti.

Jim Achterberg, Marcel Haas, Bram van Dijk, Marco Spruit2026-03-10🤖 cs.LG

A Dynamic Self-Evolving Extraction System

Il paper propone DySECT, un sistema di estrazione auto-evolutivo che crea un ciclo virtuoso in cui un modello LLM popola dinamicamente una base di conoscenza che, a sua volta, raffina l'estrazione futura attraverso ragionamento grafico e addestramento sintetico.

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka2026-03-10🤖 cs.LG

CN-CBF: Composite Neural Control Barrier Function for Safe Robot Navigation in Dynamic Environments

Il paper propone il CN-CBF, un metodo di controllo neurale composito che combina più funzioni di barriera addestrate tramite la raggiungibilità di Hamilton-Jacobi per garantire una navigazione robotica sicura ed efficace in ambienti dinamici, superando le prestazioni dei metodi esistenti sia in simulazione che in esperimenti hardware.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Il paper introduce NerVE, un framework unificato basato sulla dinamica degli autovalori che analizza come le reti feed-forward nei grandi modelli linguistici organizzano il flusso informativo nello spazio latente, rivelando come le non linearità e la geometria dell'ottimizzatore governino l'utilizzo delle dimensioni latenti e fornendo metriche predittive per migliorare le scelte architetturali e di ottimizzazione.

Nandan Kumar Jha, Brandon Reagen2026-03-10🤖 cs.LG

Swimba: Switch Mamba Model Scales State Space Models

Il paper presenta Swimba, un modello che integra un meccanismo Mixture-of-Experts nello spazio dei parametri degli State Space Models per aumentare la capacità del modello mantenendo fissi i costi computazionali dominanti del ricorsione.

Zhixu Du, Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath, Hai Helen Li, Yiran Chen2026-03-10🤖 cs.LG

← Precedente Successivo →