stat.ML papers | Gist.Science

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Deze paper introduceert een nieuw kader dat Large Language Models vertegenwoordigt met multi-kern Boolese parameters, waardoor voor het eerst directe finetuning in het Boolese domein mogelijk is zonder latente gewichten, wat leidt tot een aanzienlijke vermindering van complexiteit en een verbeterde prestatie vergeleken met bestaande binaire en kwantisatie-methoden.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Enabling stratified sampling in high dimensions via nonlinear dimensionality reduction

Deze paper introduceert een methode die neurale actieve variëteiten gebruikt om de ingangsruimte van complexe modellen te reduceren tot één dimensie, waardoor stratified sampling in hoge dimensies mogelijk wordt door partities te creëren die de niveau-lijnen van het model volgen en zo de variantie van schattingen verlagen.

Gianluca Geraci, Daniele E. Schiavazzi, Andrea Zanoni2026-03-06🔢 math

Bures-Wasserstein Flow Matching for Graph Generation

Dit artikel introduceert BWFlow, een nieuw stroommatching-raamwerk voor het genereren van grafen dat de beperkingen van bestaande methoden oplost door de gezamenlijke evolutie van knopen en randen te modelleren via Markov-random fields en Bures-Wasserstein-optimal transport voor een soepelere en efficiëntere trainings- en bemonsteringsproces.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Dit onderzoek toont aan dat de rangschikkingen van grote taalmodellen, zoals die op Chatbot Arena, uiterst gevoelig zijn voor het verwijderen van een verwaarloosbaar klein percentage van de voorkeursdata, waardoor de top van de lijst kan veranderen, terwijl rangschikkingen gebaseerd op MT-bench door deskundige annotatoren aanzienlijk robuuster blijken.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

Quantitative convergence of trained single layer neural networks to Gaussian processes

Dit artikel biedt expliciete bovengrenzen voor de kwantitatieve convergentie van getrainde enkelvoudige laag-neurale netwerken naar Gaussische processen in de limiet van oneindige breedte, waarbij wordt aangetoond dat de kwadratische Wasserstein-afstand polynoommatig afneemt met de netwerkbreedte.

Eloy Mosig, Andrea Agazzi, Dario Trevisan2026-03-06🔢 math

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Deze studie levert niet-asymptotische grenzen op voor de efficiëntie van geconformaliseerde regressie, waarbij de afhankelijkheid van de voorspellingsintervallengte van de trainings- en kalibratieomvang en het misdekkingenniveau wordt gekwantificeerd om richtlijnen te bieden voor data-allocation.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Generalization Below the Edge of Stability: The Role of Data Geometry

Dit paper toont theoretisch aan dat de geometrie van de data de generalisatie in overparameteriseerde ReLU-netwerken stuurt, waarbij data die moeilijk te 'shatteren' is leidt tot het leren van gedeelde patronen, terwijl data die makkelijk te shatteren is (zoals op de eenheidsbol) memorisatie bevordert.

Tongtong Liang, Alexander Cloninger, Rahul Parhi + 1 more2026-03-06💻 cs

Testing Most Influential Sets

Dit paper introduceert een principieel raamwerk voor het testen van de meest invloedrijke datasets in lineaire kleinste-kwadratenmodellen, waarbij exacte formules en extreme-waardeverdelingen worden gebruikt om statistisch onderbouwde hypothesetoetsen uit te voeren om te bepalen of invloed buitensporig is ten opzichte van natuurlijke variatie.

Lucas Darius Konrad, Nikolas Kuschnig2026-03-06🔢 math

Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

Dit artikel introduceert SACP, een nieuwe methode die conformiteitscores van meerdere voorspellende modellen symmetrisch aggregeert via e-waarden om efficiëntere en betrouwbaardere onzekerheidssets te genereren dan bestaande technieken.

Nabil Alami, Jad Zakharia, Souhaib Ben Taieb2026-03-06💻 cs

A Bayesian approach to learning mixtures of nonparametric components

Dit artikel introduceert een Bayesiaanse niet-parametrische aanpak voor het leren van eindige mengsels met niet-parametrische componenten, waarbij het identificeerbaarheid, posterior-contractie en een efficiënt MCMC-algoritme worden onderzocht om complexe verdelingen van subpopulaties te schatten.

Yilei Zhang, Yun Wei, Aritra Guha + 1 more2026-03-06🔢 math

Towards Sharp Minimax Risk Bounds for Operator Learning

Dit artikel ontwikkelt een minimax-theorie voor operatorleer die aantoont dat het schatten van Lipschitz-continuïteitsoperatoren tussen Hilbertruimtes inherent lijdt aan een vloek van de steekproefcomplexiteit, waarbij de risico's niet algebraïsch kunnen afnemen met de steekproefgrootte, ongeacht de regulariteit van de operator.

Ben Adcock, Gregor Maier, Rahul Parhi2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Dit artikel introduceert Latent-IMH, een efficiënte Bayesiaanse inferentiemethode voor inverse problemen met dure operatoren die, door het gebruik van een goedkope benadering voor het genereren van latente variabelen en een exacte verfijning, aanzienlijk sneller is dan bestaande methoden zoals NUTS.

Youguang Chen, George Biros2026-03-06🔢 math

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Deze paper introduceert YuriiFormer, een suite van Nesterov-versnelde transformers die transformerlagen interpreteren als optimalisatiestappen en hiermee een architectuur voorstellen die de prestaties van nanoGPT op TinyStories en OpenWebText verbetert.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

Optimal training-conditional regret for online conformal prediction

Dit artikel introduceert en analyseert twee online conformale voorspellingsalgoritmen die driftdetectie gebruiken om optimale training-voorwaardelijke regret te bereiken bij niet-stationaire datastromen, afhankelijk van of de niet-conformiteitscores vooraf zijn getraind of online worden aangepast.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

Regularized Online RLHF with Generalized Bilinear Preferences

Deze paper introduceert een regulariseerde online RLHF-methode met het Generalized Bilinear Preference Model die, door gebruik te maken van sterke convexiteit en een laag-rang structuur, statistisch efficiënte spijtbegrensingen garandeert voor het vinden van Nash-evenwichten in hoge-dimensionale contexten.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

Conformal Graph Prediction with Z-Gromov Wasserstein Distances

Deze paper introduceert een conformele voorspellingsframework voor graf-gebaseerde regressieproblemen dat distributie-vrije dekking garandeert door gebruik te maken van de Z-Gromov-Wasserstein-afstand en een aangepaste Quantile Regression-methode (SCQR) voor adaptieve voorspellingssets.

Gabriel Melo, Thibaut de Saivre, Anna Calissano + 1 more2026-03-06💻 cs

Decorrelating the Future: Joint Frequency Domain Learning for Spatio-temporal Forecasting

Dit artikel introduceert FreST Loss, een model-onafhankelijke trainingsdoelstelling die gebruikmaakt van de gezamenlijke Fourier-transformatie om complexe ruimtelijk-temporele afhankelijkheden in graf-gebaseerde signalen effectiever te modelleren dan bestaande methoden.

Zepu Wang, Bowen Liao, Jeff + 1 more2026-03-06💻 cs

Machine Learning for Complex Systems Dynamics: Detecting Bifurcations in Dynamical Systems with Deep Neural Networks

Dit onderzoek presenteert een nieuwe methode met deep learning, genaamd Equilibrium-Informed Neural Networks (EINNs), die evenwichtstoestanden als invoer gebruikt om kritieke drempels en abrupte regimeverschuivingen in complexe dynamische systemen efficiënter te detecteren dan traditionele simulaties.

Swadesh Pal, Roderick Melnik2026-03-06🔢 math

Dictionary Based Pattern Entropy for Causal Direction Discovery

Dit artikel introduceert het Dictionary Based Pattern Entropy (DPE)-kader, dat causaliteit in symbolische tijdsreeksen onthult door de richting te bepalen waarin de kandidaat-oorzaak de meest compacte en deterministische patronen genereert die de variabiliteit van het effect minimaliseren.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Dit artikel presenteert een Bayesiaanse machine learning-analyse van de Collatz-stoptijden voor $n \le 10^7$ , waarbij een hiërarchisch Negatief Binomiaal regressiemodel en een mechanistische generatieve benadering worden vergeleken om aan te tonen dat modulaire structuur (met name modulo 8) cruciaal is voor het verklaren van de heterogeniteit in deze tijden.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

← Vorige Volgende →