cs.LG articoli | Gist.Science

Joint 3D Gravity and Magnetic Inversion via Rectified Flow and Ginzburg-Landau Guidance

Questo articolo presenta un nuovo framework per l'inversione congiunta 3D di gravità e magnetismo basato su flussi rettificati e un regolarizzatore di Ginzburg-Landau, progettato per superare i limiti delle soluzioni deterministiche tradizionali catturando l'intera distribuzione delle possibili densità sotterranee.

Dhruman Gupta (Ashoka University), Yashas Shende (Ashoka University), Aritra Das (Ashoka University), Chanda Grover Kamra (Ashoka University), Debayan Gupta (Ashoka University)2026-03-10🤖 cs.LG

Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance

Il paper presenta un algoritmo basato su epoche e una corrispondente limite inferiore che caratterizzano il tasso minimax esatto per il regret nel commercio bilaterale contestuale con valutazioni a coda pesante (momento finito $p \in (1,2)$ ), interpolando tra il tasso non parametrico classico e quello lineare.

Hangyi Zhao2026-03-10🤖 cs.LG

Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration

Il paper presenta \textbf{\texttt{C3}}, un metodo di assegnazione del credito controfattuale contestuale che risolve il problema della diffusione del segnale di ricompensa nei sistemi multi-agente basati su LLM isolando l'impatto causale dei singoli messaggi tramite replay a continuazione fissa e una baseline leave-one-out, migliorando così le prestazioni terminali e la fedeltà dell'assegnazione del credito.

Yanjun Chen, Yirong Sun, Hanlin Wang, Xinming Zhang, Xiaoyu Shen, Wenjie Li, Wei Zhang2026-03-10🤖 cs.LG

IGLU: The Integrated Gaussian Linear Unit Activation Function

Il paper introduce IGLU, una nuova funzione di attivazione parametrica basata su una distribuzione di Cauchy che garantisce gradienti non nulli e robustezza, offrendo prestazioni competitive rispetto a ReLU e GELU su diversi benchmark e un'approssimazione efficiente (IGLU-Approx) che riduce i costi computazionali.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

Symmetry-Constrained Language-Guided Program Synthesis for Discovering Governing Equations from Noisy and Partial Observations

Il paper presenta SymLang, un framework unificato che combina grammatiche vincolate dalla simmetria, sintesi di programmi guidata da modelli linguistici e selezione bayesiana di modelli per scoprire equazioni governative interpretabili e fisicamente coerenti a partire da osservazioni rumorose e parziali, superando significativamente gli approcci esistenti in termini di accuratezza strutturale e stabilità.

Mirza Samad Ahmed Baig, Syeda Anshrah Gillani2026-03-10🤖 cs.LG

Stochastic Attention via Langevin Dynamics on the Modern Hopfield Energy

Il paper propone l'attenzione stocastica, un metodo di campionamento senza addestramento basato sulla dinamica di Langevin applicata all'energia di Hopfield moderna, che trasforma i meccanismi di attenzione esistenti in generatori diversificati e controllabili tramite temperatura, superando le prestazioni dei modelli appresi senza richiedere modifiche architetturali.

Abdulrahman Alswaidan, Jeffrey D. Varner2026-03-10🤖 cs.LG

Physics-informed AI Accelerated Retention Analysis of Ferroelectric Vertical NAND: From Day-Scale TCAD to Second-Scale Surrogate Model

Questo studio presenta un modello surrogato basato su un operatore neurale informato dalla fisica (PINO) che accelera di oltre 10.000 volte l'analisi della ritenzione dei dati nei transistor a effetto di campo ferroelettrico verticali (Fe-VNAND) rispetto alle simulazioni TCAD tradizionali, consentendo una rapida ottimizzazione dei dispositivi mantenendo l'accuratezza fisica.

Gyujun Jeong (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Sungwon Cho (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Minji Shon (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Namhoon Kim (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Woohyun Hwang (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Kwangyou Seo (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Suhwan Lim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Wanki Kim (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Daewon Ha (Semiconductor Research and Development, Samsung Electronics Co., Ltd, South Korea), Prasanna Venkatesan (NVIDIA, Santa Clara, CA, USA), Kihang Youn (NVIDIA, Santa Clara, CA, USA), Ram Cherukuri (NVIDIA, Santa Clara, CA, USA), Yiyi Wang (NVIDIA, Santa Clara, CA, USA), Suman Datta (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Asif Khan (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA), Shimeng Yu (School of Electrical and Computer Engineering, Georgia Institute of Technology, GA, USA)2026-03-10🤖 cs.LG

Single-pass Possibilistic Clustering with Damped Window Footprints

Il documento propone un algoritmo di clustering possibilistico in un singolo passaggio (SPC) per dati in streaming, che utilizza finestre smorzate e l'unione delle covarianze per modellare cluster non sferici, ottenendo prestazioni superiori rispetto ad altri metodi esistenti.

Jeffrey Dale, James Keller, Aquila Galusha2026-03-10🤖 cs.LG

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Il paper propone un nuovo paradigma di aumento dei dati che, ispirandosi alle procedure di progettazione industriale, utilizza modelli linguistici di grandi dimensioni per generare programmi CAD più diversificati e complessi, arricchendo i dataset esistenti con forme organiche e curvature basate su spline tipiche dei progetti industriali reali.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

Fairness May Backfire: When Leveling-Down Occurs in Fair Machine Learning

Questo studio dimostra che, mentre l'uso di attributi sensibili nelle decisioni algoritmiche migliora inevitabilmente gli esiti per i gruppi svantaggiati, l'approccio "cieco" agli attributi può paradossalmente peggiorare le condizioni di tutti i gruppi a causa di un effetto di livellamento verso il basso.

Yi Yang, Xiangyu Chang, Pei-yu Chen2026-03-10🤖 cs.LG

XGenBoost: Synthesizing Small and Large Tabular Datasets with XGBoost

Il paper presenta XGenBoost, un approccio generativo basato su XGBoost che utilizza un modello DDIM per dataset piccoli e un modello autoregressivo gerarchico per dataset grandi, superando le prestazioni dei metodi esistenti nella sintesi di dati tabulari misti con costi di addestramento ridotti.

Jim Achterberg, Marcel Haas, Bram van Dijk, Marco Spruit2026-03-10🤖 cs.LG

A Dynamic Self-Evolving Extraction System

Il paper propone DySECT, un sistema di estrazione auto-evolutivo che crea un ciclo virtuoso in cui un modello LLM popola dinamicamente una base di conoscenza che, a sua volta, raffina l'estrazione futura attraverso ragionamento grafico e addestramento sintetico.

Moin Amin-Naseri, Hannah Kim, Estevam Hruschka2026-03-10🤖 cs.LG

CN-CBF: Composite Neural Control Barrier Function for Safe Robot Navigation in Dynamic Environments

Il paper propone il CN-CBF, un metodo di controllo neurale composito che combina più funzioni di barriera addestrate tramite la raggiungibilità di Hamilton-Jacobi per garantire una navigazione robotica sicura ed efficace in ambienti dinamici, superando le prestazioni dei metodi esistenti sia in simulazione che in esperimenti hardware.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Il paper introduce NerVE, un framework unificato basato sulla dinamica degli autovalori che analizza come le reti feed-forward nei grandi modelli linguistici organizzano il flusso informativo nello spazio latente, rivelando come le non linearità e la geometria dell'ottimizzatore governino l'utilizzo delle dimensioni latenti e fornendo metriche predittive per migliorare le scelte architetturali e di ottimizzazione.

Nandan Kumar Jha, Brandon Reagen2026-03-10🤖 cs.LG

Swimba: Switch Mamba Model Scales State Space Models

Il paper presenta Swimba, un modello che integra un meccanismo Mixture-of-Experts nello spazio dei parametri degli State Space Models per aumentare la capacità del modello mantenendo fissi i costi computazionali dominanti del ricorsione.

Zhixu Du, Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath, Hai Helen Li, Yiran Chen2026-03-10🤖 cs.LG

Physics-Consistent Neural Networks for Learning Deformation and Director Fields in Microstructured Media with Loss-Based Validation Criteria

Questo lavoro presenta un approccio computazionale che combina elementi finiti e reti neurali fisicamente consistenti per risolvere problemi di elasticità di Cosserat, integrando criteri di stabilità energetica basati su condizioni di convessità per validare le soluzioni apprese.

Milad Shirani, Pete H. Gueldner, Murat Khidoyatov, Jeremy L. Warren, Federica Ninno2026-03-10🤖 cs.LG

Joint MDPs and Reinforcement Learning in Coupled-Dynamics Environments

Questo lavoro introduce i Joint MDP (JMDP), un formalismo che estende i processi decisionali di Markov classici per modellare ambienti a dinamiche accoppiate attraverso un'interfaccia multi-azione che specifica le leggi congiunte dei risultati controfattuali, consentendo lo sviluppo di algoritmi di programmazione dinamica e incrementali con garanzie di convergenza per i momenti di ritorno.

Ege C. Kaya, Mahsa Ghasemi, Abolfazl Hashemi2026-03-10🤖 cs.LG

How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences

Questo studio dimostra che le rappresentazioni vettoriali (embedding) dei modelli fondazionali del DNA, spesso condivise come servizio, sono vulnerabili ad attacchi di inversione che permettono agli avversari di ricostruire quasi perfettamente le sequenze genomiche sensibili originali, evidenziando la necessità urgente di progettare tali modelli con criteri di privacy.

Sofiane Ouaari, Jules Kreuer, Nico Pfeifer2026-03-10🤖 cs.LG

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Questo studio dimostra che la sparsificazione dei grafi, utilizzata come pre-elaborazione leggera, può accelerare significativamente l'addestramento e l'inferenza delle reti neurali su grafi (GNN) su larga scala mantenendo o addirittura migliorando l'accuratezza nei compiti di classificazione dei nodi.

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki Kalavri2026-03-10🤖 cs.LG

Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Il documento dimostra che, sebbene i metodi di Policy Gradient ottimizzino l'addestramento post-preliminare dei modelli autoregressivi lineari tramite ricompense di esito, essi incontrano una barriera fondamentale legata al supporto del modello di base che può richiedere un numero esponenziale di query, barriera che può essere superata utilizzando ricompense di processo che sfruttano una quantile di verosimiglianza a livello di token per evitare la maledizione della dimensionalità.

Alireza Mousavi-Hosseini, Murat A. Erdogdu2026-03-10🤖 cs.LG

← Precedente Successivo →