cs.LG articoli | Gist.Science

Sequence-Level Unsupervised Training in Speech Recognition: A Theoretical Study

Questo studio teorico stabilisce le condizioni necessarie per il successo del riconoscimento vocale non supervisionato, deriva un limite teorico per l'errore di classificazione e propone una nuova funzione di perdita a livello di sequenza per migliorare l'addestramento senza dati etichettati.

Zijian Yang, Jörg Barkoczi, Ralf Schlüter + 1 more2026-03-04⚡ eess

Topological Causal Effects

Questo articolo propone un quadro innovativo per l'inferenza causale topologica che stima gli effetti del trattamento analizzando le differenze nella struttura topologica dei risultati potenziali, utilizzando funzioni silhouette di diagrammi di persistenza e un stimatore doppiamente robusto per gestire dati in spazi non euclidei.

Kwangho Kim, Hajin Lee2026-03-04📊 stat

The Malignant Tail: Spectral Segregation of Label Noise in Over-Parameterized Networks

Questo studio identifica il "Malignant Tail" come un meccanismo geometrico in cui le reti neurali sovraparametrizzate segregano il rumore delle etichette in sottospazi ortogonali ad alta frequenza, permettendo di recuperare la capacità di generalizzazione ottimale attraverso una troncatura spettrale esplicita che rimuove selettivamente tale rumore.

Zice Wang2026-03-04🤖 cs.AI

Neural Demand Estimation with Habit Formation and Rationality Constraints

Il paper presenta un sistema di domanda neurale flessibile che integra la formazione di abitudini e vincoli di razionalità per stimare le quote di bilancio, dimostrando attraverso simulazioni e un'applicazione empirica su dati analgesici come tale approccio riduca significativamente l'errore di previsione e modifichi le stime delle perdite di benessere rispetto ai modelli statici.

Marta Grzeskiewicz2026-03-04💰 q-fin

Preconditioned Score and Flow Matching

Il paper propone un metodo di precondizionamento reversibile per Flow Matching e Score-based Diffusion che, migliorando il condizionamento della covarianza delle distribuzioni intermedie, previene la stagnazione ottimizzativa e permette di raggiungere modelli generativi superiori evitando plateau subottimali.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

Large Electron Model: A Universal Ground State Predictor

Il documento presenta il "Large Electron Model", un'unica rete neurale basata sull'architettura Fermi Sets che, sfruttando il principio variazionale, predice con precisione le funzioni d'onda degli stati fondamentali di sistemi elettronici interagenti fino a 50 particelle, generalizzando efficacemente su diversi parametri Hamiltoniani e superando le limitazioni della teoria del funzionale densità nella trattazione delle forti correlazioni elettroniche.

Timothy Zaklama, Max Geier, Liang Fu2026-03-04🔬 cond-mat

Diffusion-MPC in Discrete Domains: Feasibility Constraints, Horizon Effects, and Critic Alignment: Case study with Tetris

Questo studio analizza l'applicazione del controllo predittivo basato su diffusione (Diffusion-MPC) nel dominio discreto di Tetris, evidenziando come il mascheramento dei logit per vincoli di fattibilità e l'adeguata selezione dell'orizzonte di pianificazione siano cruciali per superare le sfide del disallineamento dei critic e dell'incertezza cumulativa, superando le prestazioni dei metodi di campionamento non vincolati.

Haochuan Kevin Wang2026-03-04🤖 cs.AI

Learning graph topology from metapopulation epidemic encoder-decoder

Questo studio propone due architetture di deep learning basate su encoder-decoder che inferiscono con successo la topologia delle reti di mobilità metapopolazionali dai dati temporali delle epidemie, superando le limitazioni dei metodi attuali e permettendo l'inferenza congiunta dei parametri epidemici e della struttura della rete.

Xin Li, Jonathan Cohen, Shai Pilosof + 1 more2026-03-04🤖 cs.LG

Learning Optimal Search Strategies

Il paper propone un algoritmo che impara una strategia di ricerca ottimale per un problema di parcheggio con processi di Poisson non omogenei sconosciuti, stimando l'intensità di salto integrata per ottenere una crescita del rimpianto logaritmica, la quale viene dimostrata essere ottimale attraverso un limite inferiore minimax.

Stefan Ankirchner, Maximilian Philipp Thiel2026-03-04🤖 cs.LG

RO-N3WS: Enhancing Generalization in Low-Resource ASR with Diverse Romanian Speech Benchmarks

Il paper introduce RO-N3WS, un benchmark diversificato di dati vocali rumeni che, attraverso l'addestramento su registri stilistici differenti, migliora significativamente la generalizzazione e le prestazioni dei sistemi ASR in condizioni a risorse limitate.

Alexandra Diaconu, Mădălina Vînaga, Bogdan Alexe2026-03-04💬 cs.CL

CUCo: An Agentic Framework for Compute and Communication Co-design

Il paper presenta CUCo, un framework agenziale senza addestramento che genera automaticamente kernel CUDA ad alte prestazioni ottimizzando congiuntamente calcolo e comunicazione, riducendo la latenza end-to-end fino a 1,57 volte rispetto alle soluzioni esistenti.

Bodun Hu, Yoga Sri Varshan, Saurabh Agarwal + 1 more2026-03-04🤖 cs.LG

COOL-MC: Verifying and Explaining RL Policies for Platelet Inventory Management

Questo articolo presenta l'applicazione di COOL-MC per verificare e spiegare una politica di apprendimento per rinforzo nella gestione delle scorte di piastrine, dimostrandone l'efficacia nel garantire decisioni trasparenti e sicure attraverso l'analisi formale delle proprietà probabilistiche e delle spiegazioni a livello di feature.

Dennis Gross2026-03-04🤖 cs.AI

From Fewer Samples to Fewer Bits: Reframing Dataset Distillation as Joint Optimization of Precision and Compactness

Il paper propone QuADD, un quadro unificato per la distillazione dei dataset che ottimizza congiuntamente il numero di campioni e la precisione dei dati tramite quantizzazione differenziabile, superando i metodi esistenti in termini di efficienza informativa e prestazioni su compiti di classificazione e gestione dei fasci 3GPP.

My H. Dinh, Aditya Sant, Akshay Malhotra + 2 more2026-03-04🤖 cs.AI

Fisher-Geometric Diffusion in Stochastic Gradient Descent: Optimal Rates, Oracle Complexity, and Information-Theoretic Limits

Il paper sviluppa una teoria geometrica di Fisher per la discesa del gradiente stocastica (SGD) che modella il rumore del mini-batch come una matrice intrinseca legata alla perdita, permettendo di derivare limiti minimassimo ottimali e garanzie di complessità che dipendono da una dimensione effettiva intrinseca e dal numero di condizione di Fisher/Godambe piuttosto che dalla dimensione ambientale euclidea.

Daniel Zantedeschi, Kumar Muthuraman2026-03-04📊 stat

Learning to Pay Attention: Unsupervised Modeling of Attentive and Inattentive Respondents in Survey Data

Questo lavoro propone un quadro unificato e senza etichette per rilevare i rispondenti disattenti nei sondaggi, dimostrando che l'efficacia del rilevamento dipende principalmente dalla struttura coerente dello strumento di indagine piuttosto che dalla complessità del modello, rivelando un allineamento critico tra i principi psicometrici di affidabilità e la rilevabilità algoritmica.

Ilias Triantafyllopoulos, Panos Ipeirotis2026-03-04🤖 cs.AI

Dimension-Independent Convergence of Underdamped Langevin Monte Carlo in KL Divergence

Questo lavoro risolve un problema aperto dimostrando per la prima volta che la dinamica di Langevin sottosmorzata discretizzata converge in divergenza KL con complessità indipendente dalla dimensione, ottenendo limiti che dipendono dalla traccia dell'Hessiano piuttosto che dalla dimensione dello spazio.

Shiyuan Zhang, Qiwei Di, Xuheng Li + 1 more2026-03-04📊 stat

Using the SEKF to Transfer NN Models of Dynamical Systems with Limited Data

Questo lavoro dimostra come l'utilizzo del Filtro di Kalman Esteso per Sottogruppi (SEKF) permetta di adattare modelli di reti neurali pre-addestrati a nuovi sistemi dinamici simili con dati estremamente limitati, riducendo al contempo i costi computazionali e l'errore di generalizzazione.

Joshua E. Hammond, Tyler A. Soderstrom, Brian A. Korgel + 1 more2026-03-04🤖 cs.LG

Spectral Regularization for Diffusion Models

Il paper propone un framework di regolarizzazione spettrale a livello di perdita che, integrando funzioni di costo differenziabili nei domini di Fourier e wavelet durante l'addestramento dei modelli di diffusione senza modificarne l'architettura, migliora la qualità dei campioni generati bilanciando le frequenze e preservando la struttura multi-scala, specialmente ad alte risoluzioni.

Satish Chandran, Nicolas Roque dos Santos, Yunshu Wu + 2 more2026-03-04🤖 cs.LG

Manifold Aware Denoising Score Matching (MAD)

Il paper propone una modifica semplice ed efficiente allo score matching denoising nello spazio ambiente, che decomponendo la funzione di score in una componente nota e un residuo da apprendere, permette di gestire implicitamente la struttura della varietà senza oneri computazionali eccessivi.

Alona Levy-Jurgenson, Alvaro Prat, James Cuin + 1 more2026-03-04📊 stat

Can Computational Reducibility Lead to Transferable Models for Graph Combinatorial Optimization?

Questo articolo propone un modello neurale basato su GCON e funzioni di perdita energy-based che, sfruttando strategie di preaddestramento informate dalla riducibilità computazionale, dimostra la fattibilità di trasferire conoscenze e accelerare la convergenza tra diversi problemi di ottimizzazione combinatoria su grafi, un passo fondamentale verso la creazione di modelli fondazionali per tale ambito.

Semih Cantürk, Thomas Sabourin, Frederik Wenkel + 2 more2026-03-04🤖 cs.AI

← Precedente Successivo →