K-Means as a Radial Basis function Network: a Variational and Gradient-based Equivalence

Questo lavoro stabilisce una rigorosa equivalenza variazionale e basata sul gradiente tra l'algoritmo K-Means e le reti neurali a funzioni di base radiale differenziabili, dimostrando come l'ottimizzazione continua dei centri RBF si riduca alla regola di aggiornamento dei centroidi K-Means nel limite di temperatura nulla e proponendo l'uso di Entmax-1.5 per garantire stabilità numerica.

Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez2026-03-06🔢 math

Optimal Prediction-Augmented Algorithms for Testing Independence of Distributions

Questo lavoro propone algoritmi ottimali per il test di indipendenza delle distribuzioni che, integrando informazioni predittive ausiliarie, garantiscono validità nel caso peggiore e migliorano significativamente l'efficienza del campionamento quando le previsioni sono accurate, estendendo il risultato al caso multivariato e fornendo limiti inferiori minimax corrispondenti.

Maryam Aliakbarpour, Alireza Azizi, Ria Stevens2026-03-06💻 cs

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Il paper propone che il consolidamento della memoria non serva solo a stabilizzare le rappresentazioni, ma ottimizzi la generalizzazione attraverso una "dimenticanza predittiva" che comprime selettivamente le informazioni per conservare solo ciò che prevede esiti futuri, un processo iterativo reso necessario dai vincoli di codifica ad alta fedeltà e validato da simulazioni in modelli biologici e linguistici.

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Questo studio dimostra che l'induttività architetturale delle reti neurali convoluzionali, in particolare la località e la condivisione dei pesi, modifica l'implicita regolarizzazione indotta dal fenomeno dell'instabilità al bordo, permettendo una generalizzazione efficace su dati sferici ad alta dimensionalità dove le reti fully connected falliscono.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Questo lavoro dimostra che, per dati casuali ad alta dimensionalità, il bias implicito della discesa del gradiente su una rete neurale ReLU approssima con alta probabilità la soluzione a norma L2 minima, con un errore dell'ordine di Θ(n/d)\Theta(\sqrt{n/d}), grazie a una nuova analisi primale-duale che traccia l'evoluzione delle previsioni e la rapida stabilizzazione dei pattern di attivazione.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

Non-Euclidean Gradient Descent Operates at the Edge of Stability

Il paper estende il fenomeno dell'Edge of Stability agli ottimizzatori non euclidei definendo una misura generalizzata di sharpness basata su norme arbitrarie, dimostrando sperimentalmente che anche metodi come la discesa del gradiente \ell_{\infty} e Block CD mostrano una progressiva affilatura seguita da oscillazioni attorno alla soglia teorica $2/\eta$.

Rustem Islamov, Michael Crawshaw, Jeremy Cohen + 1 more2026-03-06🔢 math

Towards a data-scale independent regulariser for robust sparse identification of non-linear dynamics

Il documento presenta STCV, un nuovo algoritmo di regressione sparsa che utilizza il coefficiente di presenza come metrica statistica per garantire l'identificazione robusta e invariante alla scala dei dati delle leggi fisiche non lineari, superando i limiti dei metodi tradizionali come STLSQ e E-SINDy in presenza di rumore e normalizzazione.

Jay Raut, Daniel N. Wilke, Stephan Schmidt2026-03-06🤖 cs.LG

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Questo studio dimostra che per l'analisi OOD dei Vision Transformer è fondamentale scegliere strategicamente sia il livello intermedio che il modulo specifico da sondare, rivelando che l'attivazione interna della rete feed-forward è ottimale in caso di forte shift distributivo, mentre l'output normalizzato dell'attenzione multi-testa lo è quando lo shift è debole.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Il paper propone l'uso dei valori di Shapley asimmetrici come metrica onesta per quantificare l'importanza dei geni nei modelli predittivi clinici ad alta dimensionalità, superando i limiti degli approcci tradizionali legati alla collinearità e alla direzione delle dipendenze, e ne illustra l'efficacia attraverso algoritmi efficienti applicati alla previsione della sopravvivenza libera da progressione nel cancro del colon-retto.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Questo articolo dimostra che l'ammissibilità nell'inferenza predittiva è irriducibilmente relativa al criterio scelto, delineando quattro geometrie distinte e non annidate (dominanza di Blackwell, validità *anytime*, copertura marginale e admissibilità CAA) che, pur condividendo un modello di ottimizzazione comune, operano su spazi e vincoli geometricamente incompatibili.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math