cs.LG articoli | Gist.Science

Memory Caching: RNNs with Growing Memory

Il paper introduce la "Memory Caching", una tecnica che potenzia i modelli ricorrenti memorizzando stati intermedi per aumentare la capacità di memoria in modo scalabile, colmando il divario di prestazioni rispetto ai Transformer nei compiti di richiamo senza sacrificare l'efficienza computazionale.

Ali Behrouz, Zeman Li, Yuan Deng + 3 more2026-03-02🤖 cs.AI

Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation

Il paper introduce LoRA-Pre, un ottimizzatore innovativo basato su approssimazione a basso rango che riduce significativamente l'overhead di memoria durante l'addestramento e il fine-tuning di modelli linguistici, ottenendo prestazioni superiori rispetto agli ottimizzatori standard e alle tecniche efficienti esistenti.

Zhengbo Wang, Jian Liang, Ran He + 2 more2026-03-02💬 cs.CL

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Il paper presenta CUDA Agent, un sistema di apprendimento per rinforzo su larga scala che, grazie a una pipeline di sintesi dati, un ambiente di sviluppo con verifica automatica e tecniche RL avanzate, supera le prestazioni degli attuali modelli proprietari e dei sistemi basati su compilatori nella generazione di kernel CUDA ottimizzati.

Weinan Dai, Hanlin Wu, Qiying Yu + 13 more2026-03-02🤖 cs.AI

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Il paper propone un nuovo paradigma di addestramento basato su un Decoupled Diffusion Transformer che combina "Mode Seeking" e "Mean Seeking" per generare rapidamente video lunghi e coerenti, superando la scarsità di dati a lungo termine preservando al contempo l'alta fedeltà locale.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

Metric-valued regression

Gli autori propongono un algoritmo efficiente e fortemente Bayes-consistente per l'apprendimento di mappature tra spazi metrici, basato su medoidi metrici e una nuova tecnica di compressione semi-stabile, che risolve il problema della perdita non limitata nel setting agnostico per spazi topologicamente separabili.

Dan Tsir Cohen, Aryeh Kontorovich2026-02-27🤖 cs.LG

Hardness of Maximum Likelihood Learning of DPPs

Questo lavoro dimostra la congettura di Kulesza provando che il problema dell'apprendimento della massima verosimiglianza per i Processi a Punti Determinantali (DPP) è NP-completo, fornendo anche un risultato di durezza di approssimazione che riduce il calcolo della verosimiglianza logaritmica massima a un'istanza di gap del problema di 3-colorazione su ipergrafi.

Elena Grigorescu, Brendan Juba, Karl Wimmer + 1 more2026-02-27🤖 cs.LG

Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex Optimization

Questo articolo propone MaxCOSD, un algoritmo di ottimizzazione convessa online che garantisce prestazioni robuste nella gestione di scorte multi-prodotto con dinamiche di stato e richieste non i.i.d., superando i limiti dei modelli tradizionali basati su assunzioni di indipendenza e distribuzione identica.

Massil Hihat, Stéphane Gaïffas, Guillaume Garrigos + 1 more2026-02-27🤖 cs.LG

Entropic Matching for Expectation Propagation of Markov Jump Processes

Il paper propone un nuovo metodo di inferenza basato sull'accoppiamento entropico integrato nell'algoritmo Expectation Propagation per stimare efficientemente gli stati latenti e i parametri nelle reti di reazioni chimiche, superando le limitazioni computazionali dei processi di salto di Markov.

Yannick Eich, Bastian Alt, Heinz Koeppl2026-02-27🧬 q-bio

Differentiable Particle Filtering using Optimal Placement Resampling

Questo lavoro propone un metodo di ricampionamento differenziabile basato sul campionamento deterministico da una funzione di distribuzione cumulativa empirica per abilitare l'apprendimento basato su gradienti nell'inferenza di parametri e nell'ottimizzazione delle proposte nei filtri particellari.

Domonkos Csuzdi, Olivér Törő, Tamás Bécsi2026-02-27🤖 cs.LG

Procedural Fairness in Machine Learning

Questo articolo definisce la giustizia procedurale nei modelli di machine learning, propone una nuova metrica basata sull'attribuzione delle caratteristiche per valutarla e presenta metodi per identificarne e correggerne le ingiustizie, migliorando così sia l'equità procedurale che quella distributiva con un lieve sacrificio delle prestazioni.

Ziming Wang, Changwu Huang, Ke Tang + 1 more2026-02-27🤖 cs.LG

Approximation Error and Complexity Bounds for ReLU Networks on Low-Regular Function Spaces

Questo lavoro dimostra che le reti neurali ReLU possono approssimare una vasta classe di funzioni limitate con regolarità minima, ottenendo un errore di approssimazione inversamente proporzionale al prodotto di larghezza e profondità della rete, grazie a una prova costruttiva che eredita i limiti di complessità dalle reti residuali a caratteristiche di Fourier.

Owen Davis, Gianluca Geraci, Mohammad Motamed2026-02-27🤖 cs.LG

RLSF: Fine-tuning LLMs via Symbolic Feedback

Il paper introduce RLSF, un nuovo paradigma di fine-tuning per i Large Language Models che utilizza feedback simbolico da strumenti di ragionamento formale per fornire guida a livello di token, permettendo a modelli più piccoli di superare le prestazioni di modelli chiusi molto più grandi su compiti che richiedono logica e vincoli di dominio.

Piyush Jha, Prithwish Jana, Pranavkrishna Suresh + 2 more2026-02-27🤖 cs.AI

Meta-Designing Quantum Experiments with Language Models

Il paper presenta il "meta-design", un approccio che utilizza modelli linguistici basati su transformer per generare codice Python leggibile e generalizzabile, permettendo agli scienziati di scoprire e comprendere nuovi principi fisici nella progettazione di esperimenti quantistici senza bisogno di ottimizzazioni aggiuntive.

Sören Arlt, Haonan Duan, Felix Li + 3 more2026-02-27⚛️ quant-ph

Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective

Questo lavoro introduce NTK-CL, un nuovo framework per l'apprendimento continuo basato sulla teoria del Neural Tangent Kernel che, analizzando e mitigando i gap di generalizzazione attraverso l'ortogonalità delle feature e la regolarizzazione adattiva, raggiunge prestazioni all'avanguardia senza memorizzare parametri specifici per ogni compito.

Jingren Liu, Zhong Ji, YunLong Yu + 4 more2026-02-27🤖 cs.AI

Efficient Graph Coloring with Neural Networks: A Physics-Inspired Approach for Large Graphs

Il paper presenta un approccio fisico ispirato che combina reti neurali grafiche e principi di meccanica statistica per risolvere efficientemente problemi di colorazione dei grafi su larga scala, superando le soglie algoritmiche e generalizzando da istanze piccole a quelle molto grandi.

Lorenzo Colantonio, Andrea Cacioppo, Federico Scarpati + 3 more2026-02-27🤖 cs.LG

From Raw Data to Reliable Predictions: The Significance of Data Processing in COVID-19 Modelling

Questo studio dimostra che l'implementazione di una pipeline di preelaborazione dei dati personalizzata, che include la trasformazione dei totali settimanali in aggiornamenti giornalieri, il rilevamento localizzato degli outlier, la verifica delle dipendenze computazionali e la selezione iterativa delle caratteristiche, migliora significativamente l'accuratezza dei modelli predittivi sulla mortalità da COVID-19 rispetto alle metodologie standard.

Sangita Das, Subhrajyoti Maji2026-02-27✓ Author reviewed ⓘ🤖 cs.LG

Decision MetaMamba: Enhancing Selective SSM in Offline RL with Heterogeneous Sequence Mixing

Il paper presenta Decision MetaMamba, un'architettura innovativa per l'apprendimento per rinforzo offline che, sostituendo il mixer di token Mamba con un mixer di sequenze denso e modificando la struttura posizionale, risolve il problema della perdita di informazioni durante la scansione selettiva, ottenendo prestazioni all'avanguardia con un footprint parametrico ridotto.

Wall Kim, Chaeyoung Song, Hanul Kim2026-02-27🤖 cs.AI

Beyond Attribution: Unified Concept-Level Explanations

Il paper propone UnCLE, un framework unificato che estende le tecniche di spiegazione agnostiche dal modello per generare spiegazioni basate su concetti in forme diverse (attribuzioni, condizioni sufficienti e controfattuali) utilizzando la perturbazione di grandi modelli pre-addestrati, ottenendo risultati più fedeli e versatili rispetto agli stati dell'arte.

Junhao Liu, Haonan Yu, Xin Zhang2026-02-27🤖 cs.LG

Testing the Efficacy of Hyperparameter Optimization Algorithms in Short-Term Load Forecasting

Questo studio valuta l'efficacia di cinque algoritmi di ottimizzazione degli iperparametri nell'ottimizzare il modello XGBoost per la previsione del carico elettrico a breve termine, rivelando vantaggi significativi nei tempi di esecuzione rispetto alla ricerca casuale e differenze nelle prestazioni di accuratezza tra i metodi testati.

Tugrul Cabir Hakyemez, Omer Adar2026-02-27🤖 cs.LG

Multi-view biomedical foundation models for molecule-target and property prediction

Gli autori presentano MMELON, un modello fondazionale biomedico che integra rappresentazioni multiple (grafico, immagine e testo) per prevedere con successo proprietà molecolari e interazioni farmaco-target, identificando nuovi potenziali leganti per recettori GPCR associati all'Alzheimer.

Parthasarathy Suryanarayanan, Yunguang Qiu, Shreyans Sethi + 15 more2026-02-27🧬 q-bio

← Precedente Successivo →