stat.ML articles | Gist.Science

The Volterra signature

Cet article propose la signature de Volterra, une représentation de caractéristiques explicite et interprétable pour les séries temporelles non markoviennes, qui offre des garanties théoriques d'approximation universelle, permet un calcul efficace via des équations différentielles et des noyaux intégraux, et surpasse les signatures de chemin classiques dans les tâches d'apprentissage dynamique.

Paul P. Hager, Fabian N. Harang, Luca Pelizzari + 1 more2026-03-06💻 cs

Oracle-efficient Hybrid Learning with Constrained Adversaries

Cet article propose un nouvel algorithme d'apprentissage hybride efficace et statistiquement optimal sous contraintes adverses, basé sur une réduction Frank-Wolfe innovante et des bornes de queue pour des martingales hybrides, permettant ainsi de calculer des équilibres dans des jeux stochastiques à payoff de faible dimension.

Princewill Okoroafor, Robert Kleinberg, Michael P. Kim2026-03-06💻 cs

K-Means as a Radial Basis function Network: a Variational and Gradient-based Equivalence

Ce travail établit une équivalence variationnelle et basée sur le gradient entre l'algorithme K-Means et les réseaux de neurones à fonctions de base radiale, prouvant que les mises à jour des centres RBF convergent vers les règles K-Means tout en proposant l'intégration d'Entmax-1.5 pour assurer une stabilité numérique et permettre une optimisation conjointe des représentations et des clusters dans les architectures d'apprentissage profond.

Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez2026-03-06🔢 math

Optimal Prediction-Augmented Algorithms for Testing Independence of Distributions

Cet article propose des algorithmes optimaux pour tester l'indépendance de distributions en intégrant des informations prédictives auxiliaires, garantissant une validité robuste dans le pire des cas tout en améliorant significativement l'efficacité de l'échantillonnage lorsque ces prédictions sont précises.

Maryam Aliakbarpour, Alireza Azizi, Ria Stevens2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

Cet article propose une méthode appelée sFRC, basée sur l'analyse de corrélation de Fourier sur de petits patches, pour détecter et quantifier les hallucinations dans les images médicales restaurées par apprentissage profond, démontrant ainsi son efficacité sur divers problèmes de sous-échantillonnage en CT et IRM.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Cet article propose que la consolidation cérébrale optimise la généralisation en réduisant la complexité des représentations par un « oubli prédictif » sélectif, un processus de compression itérative hors ligne qui améliore les bornes théoriques de l'information et qui est validé par des simulations dans divers modèles neuronaux et linguistiques.

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Cet article présente la première caractérisation de l'équivalence distributionnelle et une méthode d'apprentissage sans hypothèses structurelles pour les modèles causaux cycliques linéaires non gaussiens avec variables latentes, en introduisant de nouvelles contraintes de rang d'arêtes pour identifier les graphes équivalents.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Cet article démontre théoriquement que les biais inductifs des réseaux de neurones convolutifs, à savoir la localité et le partage de poids, permettent une généralisation efficace sur des données sphériques en contournant la malédiction de la dimensionnalité, contrairement aux réseaux entièrement connectés qui échouent dans ce régime.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Cet article démontre que, pour des données aléatoires de haute dimension, le biais implicite de la descente de gradient sur un modèle ReLU peu profond se rapproche de la solution à norme L2 minimale avec une erreur de l'ordre de $\Theta(\sqrt{n/d})$ , grâce à une nouvelle analyse primale-duale qui établit une stabilisation rapide des motifs d'activation ReLU.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

Non-Euclidean Gradient Descent Operates at the Edge of Stability

Cet article propose une interprétation du phénomène de stabilité à la limite (Edge of Stability) via la lissité directionnelle généralisée aux normes non-euclidiennes, démontrant que ce comportement d'oscillation autour du seuil de stabilité s'applique à une large gamme d'optimiseurs au-delà de la descente de gradient classique.

Rustem Islamov, Michael Crawshaw, Jeremy Cohen + 1 more2026-03-06🔢 math

Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Cet article présente fedCI et fedCI-IOD, des méthodes fédérées permettant la découverte causale sur des données hétérogènes et distribuées avec des confondants latents, tout en préservant la confidentialité et en améliorant la puissance statistique par rapport aux analyses locales.

Maximilian Hahn, Alina Zajak, Dominik Heider + 1 more2026-03-06🤖 cs.AI

Towards a data-scale independent regulariser for robust sparse identification of non-linear dynamics

Ce papier présente le STCV, un nouvel algorithme de régression parcimonieuse robuste à la normalisation des données qui, en remplaçant le seuillage magnétique par une métrique statistique sans dimension, permet d'identifier avec fiabilité les lois physiques gouvernant des systèmes dynamiques non linéaires bruyants, là où les méthodes conventionnelles échouent.

Jay Raut, Daniel N. Wilke, Stephan Schmidt2026-03-06🤖 cs.LG

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Cet article propose un cadre novateur pour estimer des règles de décision individualisées optimales tout en intégrant des contraintes de parité démographique et de parité démographique conditionnelle, garantissant ainsi l'équité sans sacrifier l'efficacité computationnelle ni la performance théorique.

Wenhai Cui, Wen Su, Donglin Zeng + 1 more2026-03-06🤖 cs.LG

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Cette étude démontre que pour optimiser la détection hors distribution dans les Vision Transformers, il est préférable de combiner l'analyse des couches intermédiaires et des modules spécifiques, en privilégiant les activations du réseau feed-forward lors de forts décalages de distribution et les sorties normalisées de l'attention multi-têtes lorsque le décalage est faible.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

Bayesian Supervised Causal Clustering

Cet article présente la méthode de regroupement causal supervisé bayésien (BSCC), qui identifie des sous-groupes de patients homogènes en fonction de leurs profils de covariables et de leurs effets de traitement pour améliorer la prise de décision personnalisée, en validant son efficacité sur des données simulées et réelles issues du troisième essai international sur l'AVC.

Luwei Wang, Nazir Lone, Sohan Seth2026-03-06🤖 cs.LG

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Cet article propose l'utilisation des valeurs de Shapley asymétriques comme métrique honnête pour quantifier l'importance des gènes dans les modèles prédictifs cliniques à haute dimension, en tenant compte de la collinéarité et des dépendances directionnelles, et présente des algorithmes efficaces illustrés par la prédiction de la survie sans progression dans le cancer colorectal.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Cet article démontre que l'admissibilité en inférence prédictive est irréductiblement relative au critère choisi, en établissant que quatre géométries distinctes (dominance de Blackwell, validité à tout instant, couverture marginale et approche de Cesàro) définissent des classes de procédures non imbriquées, chacune possédant son propre certificat d'optimalité et ses contraintes géométriques incompatibles.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math

On the Statistical Optimality of Optimal Decision Trees

Cet article établit une théorie statistique complète pour les arbres de décision à minimisation du risque empirique, en démontrant leur optimalité via de nouvelles inégalités-oracle et des taux minimax sur un espace fonctionnel capturant la parcimonie, l'anisotropie et l'hétérogénéité spatiale.

Zineng Xu, Subhroshekhar Ghosh, Yan Shuo Tan2026-03-06🔢 math

Harnessing Synthetic Data from Generative AI for Statistical Inference

Cet article examine, d'un point de vue statistique, les possibilités et les limites de l'utilisation des données synthétiques générées par l'IA, en identifiant les hypothèses nécessaires pour une inférence valide et en proposant des recommandations pratiques pour éviter les biais et les pièges méthodologiques.

Ahmad Abdel-Azim, Ruoyu Wang, Xihong Lin2026-03-06🤖 cs.LG

Thermodynamic Response Functions in Singular Bayesian Models

Ce papier établit un cadre thermodynamique unifié pour les modèles bayésiens singuliers, démontrant que le tempérage du posterior génère des fonctions de réponse qui relient les invariants géométriques (comme le seuil log canonique réel) aux critères de sélection de modèles (WAIC, WBIC) et révèlent des comportements de transition de phase liés à la réorganisation structurelle de la géométrie du posterior.

Sean Plummer2026-03-06🔢 math

← Précédent Suivant →