The Volterra signature

O artigo propõe a assinatura de Volterra como uma representação de recursos explícita e matematicamente fundamentada para séries temporais não markovianas, demonstrando suas propriedades de universalidade, invariância à reparametrização temporal e eficiência computacional, o que resulta em melhor desempenho em tarefas de aprendizado dinâmico em comparação com assinaturas de caminho clássicas.

Paul P. Hager, Fabian N. Harang, Luca Pelizzari + 1 more2026-03-06💻 cs

K-Means as a Radial Basis function Network: a Variational and Gradient-based Equivalence

Este trabalho estabelece uma equivalência variacional e baseada em gradientes entre o algoritmo K-Means e redes neurais de Funções de Base Radial (RBF) diferenciáveis, demonstrando que, à medida que o parâmetro de temperatura tende a zero, o objetivo RBF converge para a solução do K-Means e suas atualizações recuperam as regras exatas de centróide, permitindo a integração estável de agrupamento diferenciável em arquiteturas de aprendizado profundo.

Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez2026-03-06🔢 math

Optimal Prediction-Augmented Algorithms for Testing Independence of Distributions

Este trabalho propõe algoritmos ótimos de teste de independência que utilizam informações preditivas auxiliares para reduzir a complexidade de amostragem quando as previsões são precisas, mantendo ao mesmo tempo a validade no pior caso e estabelecendo limites inferiores que comprovam a otimalidade do método em cenários bivariados e de alta dimensão.

Maryam Aliakbarpour, Alireza Azizi, Ria Stevens2026-03-06💻 cs

Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Este trabalho apresenta a primeira caracterização de equivalência distribucional e um método de aprendizado estruturalmente livre para modelos causais lineares não-Gaussianos com variáveis latentes e ciclos, estabelecendo critérios gráficos e um algoritmo para recuperar modelos a partir de dados sem assumir restrições estruturais prévias.

Haoyue Dai, Immanuel Albrecht, Peter Spirtes + 1 more2026-03-06💻 cs

The Inductive Bias of Convolutional Neural Networks: Locality and Weight Sharing Reshape Implicit Regularization

Este artigo demonstra que a localidade e o compartilhamento de pesos em redes neurais convolucionais alteram fundamentalmente a regularização implícita, permitindo a generalização em dados esféricos de alta dimensão onde redes totalmente conectadas falham, ao acoplar os filtros aprendidos a uma variedade de patches de baixa dimensão.

Tongtong Liang, Esha Singh, Rahul Parhi + 2 more2026-03-06💻 cs

How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression?

Este artigo demonstra que, para dados aleatórios de alta dimensão, o viés implícito do gradiente descendente no treinamento de modelos ReLU rasos aproxima-se com alta probabilidade da solução de norma L2 mínima, com um desvio na ordem de Θ(n/d)\Theta(\sqrt{n/d}), através de uma nova análise primal-dual que rastreia a estabilização dos padrões de ativação ReLU.

Kuo-Wei Lai, Guanghui Wang, Molei Tao + 1 more2026-03-06🔢 math

Non-Euclidean Gradient Descent Operates at the Edge of Stability

Este artigo propõe uma interpretação da Estabilidade Limite (Edge of Stability) através da suavidade direcional generalizada para normas não euclidianas, demonstrando experimentalmente que diversos otimizadores, incluindo descida de gradiente não euclidiana, exibem esse fenômeno de estabilização em torno de um limiar de curvatura definido pela geometria do espaço.

Rustem Islamov, Michael Crawshaw, Jeremy Cohen + 1 more2026-03-06🔢 math

Learning Optimal Individualized Decision Rules with Conditional Demographic Parity

Este artigo propõe um novo quadro teórico e computacionalmente eficiente para estimar regras de decisão individualizadas ótimas que incorporam restrições de paridade demográfica e condicional, garantindo equidade em aplicações sociais sem comprometer significativamente a eficácia, conforme demonstrado por simulações e pela aplicação ao Experimento de Seguro de Saúde do Oregon.

Wenhai Cui, Wen Su, Donglin Zeng + 1 more2026-03-06🤖 cs.LG

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudo demonstra que, para otimizar a detecção de distribuição fora do domínio (OOD) em Vision Transformers, a melhor estratégia é combinar a sondagem de camadas intermediárias com a seleção específica de módulos, utilizando as ativações da rede feedforward sob grandes deslocamentos de distribuição e a saída normalizada da atenção multi-cabeça quando o deslocamento é fraco.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

How important are the genes to explain the outcome - the asymmetric Shapley value as an honest importance metric for high-dimensional features

Este artigo propõe o uso de valores de Shapley assimétricos como uma métrica de importância de recursos mais adequada e honesta para avaliar o impacto de dados genômicos de alta dimensão em modelos preditivos clínicos, superando as limitações de abordagens tradicionais ao lidar com colinearidade e direcionalidade de dependências, com validação prática na previsão da sobrevivência livre de progressão em pacientes com câncer colorretal.

Mark A. van de Wiel, Jeroen Goedhart, Martin Jullum + 1 more2026-03-06🤖 cs.LG

Bayes with No Shame: Admissibility Geometries of Predictive Inference

Este artigo demonstra que a admissibilidade na inferência preditiva é irreducivelmente relativa ao critério adotado, estabelecendo que quatro geometrias distintas — dominância de risco de Blackwell, admissibilidade válida a qualquer momento, validade de cobertura marginal e admissibilidade de aproximação de Cesàro — definem classes de procedimentos não aninhadas, cada uma com sua própria certificação de otimalidade e restrições geométricas incompatíveis.

Nicholas G. Polson, Daniel Zantedeschi2026-03-06🔢 math

Thermodynamic Response Functions in Singular Bayesian Models

Este artigo estabelece uma estrutura unificada de funções de resposta termodinâmica para modelos bayesianos singulares, demonstrando que o temperamento posterior revela uma hierarquia de observáveis que conecta geometricamente grandezas como o limiar log-canônico real, a flutuação singular e critérios como WAIC e WBIC, permitindo interpretar a complexidade e a reorganização estrutural nesses modelos através de analogias com transições de fase.

Sean Plummer2026-03-06🔢 math