stat.ML artigos | Gist.Science

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Este artigo propõe um novo quadro que representa modelos de linguagem grandes com parâmetros booleanos multi-núcleo, permitindo o ajuste fino direto no domínio booleano sem pesos latentes, o que elimina a perda de desempenho e reduz drasticamente a complexidade em comparação com métodos existentes.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Enabling stratified sampling in high dimensions via nonlinear dimensionality reduction

Este artigo propõe uma metodologia que utiliza redes neurais para reduzir a dimensionalidade não linear e criar estratificações adaptadas à resposta do modelo, permitindo a aplicação eficiente de amostragem estratificada em espaços de alta dimensão para reduzir a variância na propagação de incertezas.

Gianluca Geraci, Daniele E. Schiavazzi, Andrea Zanoni2026-03-06🔢 math

Bures-Wasserstein Flow Matching for Graph Generation

Este artigo apresenta o BWFlow, um novo framework de *Flow Matching* para geração de gráficos que supera as limitações dos métodos atuais ao modelar a evolução conjunta de nós e arestas através de campos aleatórios de Markov e transporte ótimo, garantindo caminhos de probabilidade suaves e melhorando a convergência no treinamento e amostragem.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

O artigo propõe um método computacionalmente eficiente para avaliar a robustez dos rankings de LLMs, revelando que as classificações de modelos líderes em plataformas como o Chatbot Arena são extremamente sensíveis à remoção de uma fração mínima de preferências, ao passo que as avaliações baseadas em especialistas (MT-bench) demonstram maior estabilidade.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

Quantitative convergence of trained single layer neural networks to Gaussian processes

Este artigo estabelece limites superiores explícitos para a distância de Wasserstein quadrática entre redes neurais de camada única treinadas por descida de gradiente e seus processos gaussianos associados no limite de largura infinita, demonstrando um decaimento polinomial do erro de aproximação em função da largura da rede e quantificando a influência dos parâmetros arquitetônicos e da dinâmica de treinamento.

Eloy Mosig, Andrea Agazzi, Dario Trevisan2026-03-06🔢 math

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Este trabalho estabelece limites não assintóticos para a eficiência da regressão conformalizada via SGD, quantificando como o tamanho do conjunto de previsão depende conjuntamente dos tamanhos dos conjuntos de treinamento e calibração e do nível de não cobertura, revelando transições de fase nas taxas de convergência que orientam a alocação de dados.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Generalization Below the Edge of Stability: The Role of Data Geometry

Este artigo estabelece teoricamente que a geometria dos dados determina a capacidade de generalização de redes neurais ReLU superparametrizadas treinadas abaixo do limite de estabilidade, demonstrando que dados mais difíceis de "fragmentar" favorecem a aprendizagem de padrões compartilhados, enquanto dados facilmente fragmentáveis levam à memorização.

Tongtong Liang, Alexander Cloninger, Rahul Parhi + 1 more2026-03-06💻 cs

Testing Most Influential Sets

Este artigo apresenta um quadro rigoroso para testar a influência excessiva de subconjuntos de dados em modelos de mínimos quadrados lineares, derivando fórmulas exatas e distribuições de valores extremos que permitem testes de hipóteses formais para substituir heurísticas ad hoc em diversas áreas.

Lucas Darius Konrad, Nikolas Kuschnig2026-03-06🔢 math

Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

O artigo propõe o SACP, um novo método que agrega escores de não conformidade de múltiplos modelos preditivos através de e-valores e funções simétricas para gerar conjuntos de previsão mais eficientes e válidos no contexto da predição conformal.

Nabil Alami, Jad Zakharia, Souhaib Ben Taieb2026-03-06💻 cs

A Bayesian approach to learning mixtures of nonparametric components

Este artigo propõe uma abordagem bayesiana não paramétrica para modelos de mistura finitos, estabelecendo condições de identificação e taxas de contração posterior quase polinomiais para as densidades dos componentes latentes, além de desenvolver um algoritmo MCMC eficiente para inferência em dados heterogêneos.

Yilei Zhang, Yun Wei, Aritra Guha + 1 more2026-03-06🔢 math

Towards Sharp Minimax Risk Bounds for Operator Learning

Este artigo estabelece limites minimax agudos para o aprendizado de operadores entre espaços de Hilbert, demonstrando que, para operadores Lipschitz e Hölder, a complexidade de amostragem sofre uma "maldição" que impede a convergência algébrica da taxa de risco, a menos que o espectro de covariância decaia exponencialmente.

Ben Adcock, Gregor Maier, Rahul Parhi2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

O artigo apresenta o Latent-IMH, um método de inferência bayesiana eficiente para problemas inversos lineares com operadores computacionalmente custosos, que utiliza aproximações baratas para gerar variáveis latentes e refiná-las com operadores exatos, deslocando o custo computacional para uma fase offline e superando em eficiência métodos de última geração como o NUTS.

Youguang Chen, George Biros2026-03-06🔢 math

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

O artigo apresenta o YuriiFormer, uma nova arquitetura de transformadores baseada em um quadro variacional que interpreta as camadas como iterações de otimização, permitindo a incorporação de aceleração de Nesterov para superar o desempenho de modelos padrão como o nanoGPT.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

Optimal training-conditional regret for online conformal prediction

Este artigo propõe algoritmos de conformalização online que utilizam detecção de mudanças de distribuição para alcançar arrependimento cumulativo condicional ao treinamento minimax-ótimo em fluxos de dados não estacionários, tanto para scores pré-treinados quanto para modelos aprendidos online.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

Regularized Online RLHF with Generalized Bilinear Preferences

Este artigo propõe um método de RLHF online regularizado com preferências generalizadas bilineares que, ao utilizar matrizes de baixo posto e antissimétricas, garante limites de arrependimento estatisticamente eficientes e livres de exponenciais em dimensões altas, superando as restrições de trabalhos anteriores limitados à regularização por KL reverso.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

Conformal Graph Prediction with Z-Gromov Wasserstein Distances

Este artigo propõe um framework de previsão conformal para outputs estruturados em forma de grafos, que utiliza a distância Z-Gromov-Wasserstein (FGW) e a regressão quantílica conformalizada de pontuação (SCQR) para fornecer garantias de cobertura livres de distribuição e conjuntos de previsão adaptativos em tarefas como a identificação de moléculas.

Gabriel Melo, Thibaut de Saivre, Anna Calissano + 1 more2026-03-06💻 cs

Decorrelating the Future: Joint Frequency Domain Learning for Spatio-temporal Forecasting

O artigo propõe a FreST Loss, um objetivo de treinamento aprimorado no domínio da frequência que utiliza a Transformada de Fourier Conjunta para alinhar previsões e dados reais no espectro espaço-temporal, decorrelacionando dependências complexas e melhorando consistentemente o desempenho de modelos de previsão em diversos conjuntos de dados reais.

Zepu Wang, Bowen Liao, Jeff + 1 more2026-03-06💻 cs

Machine Learning for Complex Systems Dynamics: Detecting Bifurcations in Dynamical Systems with Deep Neural Networks

Este estudo propõe o uso de Redes Neurais Equilibradas (EINNs) para detectar de forma eficiente limiares críticos e transições abruptas em sistemas dinâmicos complexos, invertendo o processo tradicional ao inferir parâmetros a partir de estados de equilíbrio candidatos.

Swadesh Pal, Roderick Melnik2026-03-06🔢 math

Dictionary Based Pattern Entropy for Causal Direction Discovery

O artigo propõe o framework de Entropia de Padrão Baseada em Dicionário (DPE), que integra a Teoria da Informação de Shannon e a Teoria da Informação Algorítmica para inferir a direção causal e os subpadrões específicos em sequências simbólicas, demonstrando desempenho robusto e competitivo em diversos sistemas sintéticos e dados biológicos.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Este artigo analisa os tempos de parada da conjectura de Collatz para $n \le 10^7$ através de uma perspectiva de aprendizado de máquina probabilístico, demonstrando que um modelo hierárquico bayesiano de regressão Negativa Binomial supera aproximações geradoras baseadas em decomposição de blocos ímpares, enquanto evidencia que a estrutura modular de baixa ordem é um fator crucial para a heterogeneidade observada nos dados.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

← Anterior Próximo →