stat.ML artículos | Gist.Science

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Este trabajo propone un marco innovador que representa los modelos de lenguaje grandes con parámetros booleanos multi-núcleo y permite su ajuste fino directo en el dominio booleano sin necesidad de pesos latentes, logrando así una mayor capacidad de representación y una reducción drástica de la complejidad en comparación con las técnicas de cuantización y binarización existentes.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Enabling stratified sampling in high dimensions via nonlinear dimensionality reduction

Este artículo propone un método que utiliza redes neuronales para reducir la dimensionalidad no lineal y crear estratificaciones adaptadas a la respuesta del modelo, permitiendo así una reducción eficaz de la varianza en la propagación de incertidumbres en espacios de alta dimensión.

Gianluca Geraci, Daniele E. Schiavazzi, Andrea Zanoni2026-03-06🔢 math

Bures-Wasserstein Flow Matching for Graph Generation

Este artículo presenta BWFlow, un marco de flujo de emparejamiento para la generación de grafos que supera las limitaciones de los métodos actuales al modelar la evolución conjunta de nodos y arcos mediante campos aleatorios de Markov y transporte óptimo, logrando así trayectorias de probabilidad más suaves, una mejor convergencia en el entrenamiento y una generación más eficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

El estudio demuestra que los rankings de los principales modelos de lenguaje son extremadamente sensibles a la eliminación de una fracción mínima de datos de preferencia, revelando que las evaluaciones de Chatbot Arena son más vulnerables a estos cambios que las de MT-bench, sin que exista una diferencia sistemática de robustez entre las evaluaciones humanas crowdsourced y las realizadas por modelos de lenguaje.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

Quantitative convergence of trained single layer neural networks to Gaussian processes

Este artículo establece cotas superiores explícitas para la distancia de Wasserstein cuadrática entre las salidas de redes neuronales de una sola capa entrenadas con descenso de gradiente y sus aproximaciones de procesos gaussianos, demostrando una convergencia cuantitativa con decaimiento polinómico en función del ancho de la red.

Eloy Mosig, Andrea Agazzi, Dario Trevisan2026-03-06🔢 math

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Este trabajo establece límites no asintóticos que cuantifican la eficiencia de la regresión conformalizada mediante SGD, revelando cómo la longitud de los conjuntos de predicción depende conjuntamente del tamaño de los conjuntos de entrenamiento y calibración, así como del nivel de cobertura, e identificando transiciones de fase en las tasas de convergencia.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Generalization Below the Edge of Stability: The Role of Data Geometry

Este artículo demuestra teóricamente que la geometría de los datos determina el sesgo implícito en redes neuronales ReLU sobreparametrizadas entrenadas por debajo del umbral de estabilidad, donde distribuciones difíciles de "fragmentar" favorecen la generalización al capturar patrones compartidos, mientras que aquellas fácilmente fragmentables (como las apoyadas en la esfera) conducen a la memorización.

Tongtong Liang, Alexander Cloninger, Rahul Parhi + 1 more2026-03-06💻 cs

Testing Most Influential Sets

Este artículo presenta un marco riguroso para probar estadísticamente si los conjuntos de datos más influyentes en modelos de mínimos cuadrados tienen un impacto excesivo, derivando fórmulas exactas y distribuciones de valores extremos que permiten realizar pruebas de hipótesis formales en lugar de depender de heurísticas ad hoc.

Lucas Darius Konrad, Nikolas Kuschnig2026-03-06🔢 math

Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

El artículo presenta SACP, un nuevo método que agrega simétricamente puntuaciones de no conformidad de múltiples modelos predictivos mediante valores-e para generar conjuntos de predicción más eficientes y válidos dentro del marco de la predicción conforme.

Nabil Alami, Jad Zakharia, Souhaib Ben Taieb2026-03-06💻 cs

A Bayesian approach to learning mixtures of nonparametric components

Este artículo presenta un enfoque bayesiano no paramétrico para modelar mezclas finitas con componentes no paramétricos, estableciendo condiciones de identificación, demostrando tasas de contracción posterior casi polinómicas para las densidades de los componentes y desarrollando un algoritmo MCMC eficiente para inferencia en datos simulados y reales.

Yilei Zhang, Yun Wei, Aritra Guha + 1 more2026-03-06🔢 math

Towards Sharp Minimax Risk Bounds for Operator Learning

Este artículo establece límites minimax agudos para el aprendizaje de operadores en espacios de Hilbert, demostrando que la complejidad de la muestra sufre una maldición que impide tasas de convergencia algebraica incluso bajo supuestos de regularidad superior.

Ben Adcock, Gregor Maier, Rahul Parhi2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

El artículo presenta Latent-IMH, un método de muestreo eficiente para problemas inversos bayesianos con operadores costosos que utiliza una aproximación para generar variables latentes y un operador exacto para refinarlas, logrando una eficiencia computacional superior a métodos como NUTS al trasladar la mayor carga de cálculo a una fase previa.

Youguang Chen, George Biros2026-03-06🔢 math

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

El artículo presenta YuriiFormer, un marco variacional que interpreta las capas de los transformadores como iteraciones de un algoritmo de optimización, lo que permite diseñar arquitecturas aceleradas por Nesterov que superan consistentemente a las baselines estándar en tareas de lenguaje.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

Optimal training-conditional regret for online conformal prediction

Este artículo propone algoritmos de predicción conformal en línea que, mediante la detección de cambios de distribución y el uso de estabilidad en lugar de simetría de permutación, logran un arrepentimiento condicional de entrenamiento óptimo en el sentido minimax para datos no estacionarios con deriva abrupta o suave.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

Regularized Online RLHF with Generalized Bilinear Preferences

Este trabajo presenta algoritmos de aprendizaje por refuerzo en línea con regularización generalizada para preferencias bilineales generalizadas, estableciendo por primera vez garantías de eficiencia estadística en dimensiones altas mediante límites de arrepentimiento que eliminan la dependencia exponencial de la fuerza de regularización y la dimensión.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

Conformal Graph Prediction with Z-Gromov Wasserstein Distances

Este trabajo propone un marco de predicción conformada para outputs gráficos que utiliza la distancia Z-Gromov-Wasserstein y la regresión cuantílica conformalizada con puntuación (SCQR) para garantizar una cuantificación de incertidumbre libre de distribuciones en espacios de salida estructurados, validado en tareas de identificación molecular.

Gabriel Melo, Thibaut de Saivre, Anna Calissano + 1 more2026-03-06💻 cs

Decorrelating the Future: Joint Frequency Domain Learning for Spatio-temporal Forecasting

El artículo propone FreST Loss, un objetivo de entrenamiento basado en el dominio de la frecuencia conjunta que utiliza la Transformada de Fourier Conjunta para decorrelacionar y capturar eficazmente las complejas dependencias espaciotemporales, mejorando así el rendimiento de los modelos de pronóstico en comparación con los enfoques tradicionales.

Zepu Wang, Bowen Liao, Jeff + 1 more2026-03-06💻 cs

Machine Learning for Complex Systems Dynamics: Detecting Bifurcations in Dynamical Systems with Deep Neural Networks

Este estudio propone el uso de Redes Neuronales Equilibradas (EINNs) para detectar de manera eficiente umbrales críticos y transiciones abruptas en sistemas dinámicos complejos, invirtiendo el proceso tradicional al inferir parámetros a partir de estados de equilibrio y así identificar regiones de inestabilidad sin necesidad de simulaciones exhaustivas.

Swadesh Pal, Roderick Melnik2026-03-06🔢 math

Dictionary Based Pattern Entropy for Causal Direction Discovery

Este artículo presenta el marco de Entropía de Patrones Basada en Diccionario (DPE), una metodología novedosa que integra la Teoría de la Información Algorítmica y la de Shannon para inferir la dirección causal en secuencias simbólicas mediante la identificación de patrones deterministas que reducen la incertidumbre, demostrando un rendimiento robusto y superior en diversos sistemas sintéticos y datos biológicos.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Este estudio analiza los tiempos de parada totales de la conjetura de Collatz mediante un enfoque de aprendizaje automático bayesiano, demostrando que un modelo de regresión binomial negativa jerárquica supera a los generadores mecánicos basados en descomposición de bloques, aunque la incorporación de la estructura modular baja mejora significativamente el ajuste de estos últimos.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

← Anterior Siguiente →