The Volterra signature

Cet article propose la signature de Volterra, une représentation de caractéristiques explicite et interprétable pour les séries temporelles non markoviennes, qui offre des garanties théoriques d'approximation universelle, permet un calcul efficace via des équations différentielles et des noyaux intégraux, et surpasse les signatures de chemin classiques dans les tâches d'apprentissage dynamique.

Paul P. Hager, Fabian N. Harang, Luca Pelizzari + 1 more2026-03-06💻 cs

K-Means as a Radial Basis function Network: a Variational and Gradient-based Equivalence

Ce travail établit une équivalence variationnelle et basée sur le gradient entre l'algorithme K-Means et les réseaux de neurones à fonctions de base radiale, prouvant que les mises à jour des centres RBF convergent vers les règles K-Means tout en proposant l'intégration d'Entmax-1.5 pour assurer une stabilité numérique et permettre une optimisation conjointe des représentations et des clusters dans les architectures d'apprentissage profond.

Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez2026-03-06🔢 math

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Cet article propose que la consolidation cérébrale optimise la généralisation en réduisant la complexité des représentations par un « oubli prédictif » sélectif, un processus de compression itérative hors ligne qui améliore les bornes théoriques de l'information et qui est validé par des simulations dans divers modèles neuronaux et linguistiques.

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Cet article présente la première caractérisation de l'équivalence distributionnelle et une méthode d'apprentissage sans hypothèses structurelles pour les modèles causaux cycliques linéaires non gaussiens avec variables latentes, en introduisant de nouvelles contraintes de rang d'arêtes pour identifier les graphes équivalents.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Cet article démontre théoriquement que les biais inductifs des réseaux de neurones convolutifs, à savoir la localité et le partage de poids, permettent une généralisation efficace sur des données sphériques en contournant la malédiction de la dimensionnalité, contrairement aux réseaux entièrement connectés qui échouent dans ce régime.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Cet article démontre que, pour des données aléatoires de haute dimension, le biais implicite de la descente de gradient sur un modèle ReLU peu profond se rapproche de la solution à norme L2 minimale avec une erreur de l'ordre de Θ(n/d)\Theta(\sqrt{n/d}), grâce à une nouvelle analyse primale-duale qui établit une stabilisation rapide des motifs d'activation ReLU.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

Towards a data-scale independent regulariser for robust sparse identification of non-linear dynamics

Ce papier présente le STCV, un nouvel algorithme de régression parcimonieuse robuste à la normalisation des données qui, en remplaçant le seuillage magnétique par une métrique statistique sans dimension, permet d'identifier avec fiabilité les lois physiques gouvernant des systèmes dynamiques non linéaires bruyants, là où les méthodes conventionnelles échouent.

Jay Raut, Daniel N. Wilke, Stephan Schmidt2026-03-06🤖 cs.LG

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Cette étude démontre que pour optimiser la détection hors distribution dans les Vision Transformers, il est préférable de combiner l'analyse des couches intermédiaires et des modules spécifiques, en privilégiant les activations du réseau feed-forward lors de forts décalages de distribution et les sorties normalisées de l'attention multi-têtes lorsque le décalage est faible.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Cet article propose l'utilisation des valeurs de Shapley asymétriques comme métrique honnête pour quantifier l'importance des gènes dans les modèles prédictifs cliniques à haute dimension, en tenant compte de la collinéarité et des dépendances directionnelles, et présente des algorithmes efficaces illustrés par la prédiction de la survie sans progression dans le cancer colorectal.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Cet article démontre que l'admissibilité en inférence prédictive est irréductiblement relative au critère choisi, en établissant que quatre géométries distinctes (dominance de Blackwell, validité à tout instant, couverture marginale et approche de Cesàro) définissent des classes de procédures non imbriquées, chacune possédant son propre certificat d'optimalité et ses contraintes géométriques incompatibles.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math

Thermodynamic Response Functions in Singular Bayesian Models

Ce papier établit un cadre thermodynamique unifié pour les modèles bayésiens singuliers, démontrant que le tempérage du posterior génère des fonctions de réponse qui relient les invariants géométriques (comme le seuil log canonique réel) aux critères de sélection de modèles (WAIC, WBIC) et révèlent des comportements de transition de phase liés à la réorganisation structurelle de la géométrie du posterior.

Sean Plummer2026-03-06🔢 math