K-Means as a Radial Basis function Network: a Variational and Gradient-based Equivalence

Este trabajo establece una equivalencia rigurosa entre el algoritmo K-Means y las redes neuronales de funciones de base radial (RBF) mediante un enfoque variacional y basado en gradientes, demostrando que los objetivos RBF convergen a la solución de K-Means y proponiendo el uso de Entmax-1.5 para garantizar estabilidad numérica, lo que permite integrar la clustering diferenciable directamente en arquitecturas de aprendizaje profundo.

Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez2026-03-06🔢 math

Why the Brain Consolidates: Predictive Forgetting for Optimal Generalisation

Este artículo propone que la consolidación de la memoria no solo estabiliza representaciones, sino que optimiza la generalización mediante un "olvido predictivo" que comprime la información reteniendo selectivamente lo que predice resultados futuros, un proceso iterativo que mejora los límites teóricos de generalización y ha sido validado mediante simulaciones en modelos neuronales y de lenguaje.

Zafeirios Fountas, Adnan Oomerjee, Haitham Bou-Ammar + 2 more2026-03-06💻 cs

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Este trabajo presenta la primera caracterización de equivalencia distribucional y un método de descubrimiento estructural sin suposiciones para modelos causales cíclicos lineales no gaussianos con variables latentes, introduciendo restricciones de rango de aristas para identificar y recuperar modelos a partir de datos.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Este artículo demuestra teóricamente que la localidad y el compartimiento de pesos en las redes neuronales convolucionales modifican la regularización implícita inducida por el fenómeno de borde de estabilidad, permitiendo una generalización efectiva en datos esféricos de alta dimensión donde las redes totalmente conectadas fallan, al acoplar los filtros aprendidos a una variedad de parches de baja dimensión.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Este artículo demuestra que, en redes neuronales ReLU de alta dimensión con datos aleatorios, el sesgo implícito del descenso de gradiente aproxima la solución de mínima norma L2 con alta probabilidad, presentando una brecha del orden de Θ(n/d)\Theta(\sqrt{n/d}) entre el número de ejemplos y la dimensión de las características.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudio demuestra que el rendimiento óptimo en la detección de cambios de distribución en Vision Transformers se logra combinando el análisis de capas intermedias y módulos específicos, donde la red feedforward es superior ante grandes desplazamientos de distribución y la atención multi-cabeza normalizada lo es ante desplazamientos débiles.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Este artículo propone el uso de valores de Shapley asimétricos como una métrica de importancia más honesta y adecuada para evaluar el impacto de características genómicas de alta dimensión en modelos predictivos clínicos, abordando problemas de colinealidad y direccionalidad de dependencias mediante algoritmos eficientes para la inferencia local y la descomposición global del rendimiento predictivo.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

On the Statistical Optimality of Optimal Decision Trees

Este trabajo establece una teoría estadística rigurosa para los árboles de decisión óptimos mediante minimización de riesgo empírico, demostrando que logran tasas minimax óptimas y desigualdades de oráculo afiladas al capturar características estructurales clave como la dispersión, la suavidad anisotrópica y la heterogeneidad espacial, incluso en escenarios de ruido pesado.

Zineng Xu, Subhroshekhar Ghosh, Yan Shuo Tan2026-03-06🔢 math