stat.ML Arbeiten | Gist.Science

Highly Efficient and Effective LLMs with Multi-Boolean Architectures

Die vorgestellte Arbeit führt ein neues Framework ein, das Large Language Models durch Multi-Boolean-Architekturen darstellt und erstmals eine direkte Feinabstimmung im booleschen Bereich ohne latente Vollpräzisionsgewichte ermöglicht, wodurch die Komplexität gesenkt und die Leistungsfähigkeit im Vergleich zu bestehenden Binärisierungs- und Quantisierungsmethoden erheblich gesteigert wird.

Ba-Hien Tran, Van Minh Nguyen2026-03-06💻 cs

Enabling stratified sampling in high dimensions via nonlinear dimensionality reduction

Die vorgestellte Methode ermöglicht eine effektive stratifizierte Stichprobenziehung in hochdimensionalen Räumen, indem sie neuronale aktive Mannigfaltigkeiten nutzt, um die Eingabedimensionen auf einen eindimensionalen latenten Raum zu reduzieren, der eine varianzreduzierende Partitionierung entlang der Modellniveauflächen erlaubt.

Gianluca Geraci, Daniele E. Schiavazzi, Andrea Zanoni2026-03-06🔢 math

Bures-Wasserstein Flow Matching for Graph Generation

Diese Arbeit stellt BWFlow vor, ein neuartiges Flow-Matching-Framework für die Graphengenerierung, das durch die Modellierung der gemeinsamen Entwicklung von Knoten und Kanten mittels Markov-Zufallsfeldern und optimaler Transporttheorie auf der Bures-Wasserstein-Metrik einen glatten Wahrscheinlichkeitspfad schafft, der die Trainingskonvergenz verbessert und die Sampling-Effizienz steigert.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Die Studie zeigt, dass die Rangfolgen führender Sprachmodelle in Systemen wie Chatbot Arena bereits durch das Entfernen eines winzigen Bruchteils der Präferenzdaten (z. B. 0,003 %) instabil werden können, wobei MT-Bench aufgrund von Expertenbewertungen robuster ist und weder Crowd- noch LLM-basierte Bewertungen systematisch anfälliger sind.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

Quantitative convergence of trained single layer neural networks to Gaussian processes

Diese Arbeit liefert explizite obere Schranken für die quadratische Wasserstein-Distanz zwischen dem Ausgang eines trainierten einlagigen neuronalen Netzwerks und seiner Gaußschen Näherung, die einen polynomiellen Konvergenzverlauf in Abhängigkeit von der Netzbreite und den Trainingsdynamiken quantifizieren.

Eloy Mosig, Andrea Agazzi, Dario Trevisan2026-03-06🔢 math

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Diese Arbeit leitet nicht-asymptotische Schranken für die Effizienz von konformalisierten Regressionsverfahren her, die die gemeinsame Abhängigkeit der Vorhersageintervalllänge von der Trainings- und Kalibrierungsdatengröße sowie dem Misscoverage-Level $α$ quantifizieren und Phasenübergänge in den Konvergenzraten aufzeigen.

Yunzhen Yao, Lie He, Michael Gastpar2026-03-06💻 cs

Generalization Below the Edge of Stability: The Role of Data Geometry

Diese Arbeit zeigt theoretisch, dass die Geometrie der Daten bei überparametrisierten ReLU-Netzen unterhalb der Stabilitätsgrenze den Generalisierungserfolg bestimmt, indem sie steuert, ob der Gradientenabstieg gemeinsame Muster lernt oder zu einer Memorierung neigt.

Tongtong Liang, Alexander Cloninger, Rahul Parhi + 1 more2026-03-06💻 cs

Testing Most Influential Sets

Diese Arbeit entwickelt ein prinzipielles statistisches Rahmenwerk für die Hypothesenprüfung übermäßig einflussreicher Datensubsets in der linearen Regression, indem sie exakte Einflussformeln und Extremwertverteilungen nutzt, um rigorose Tests durchzuführen und ad-hoc-Heuristiken zu ersetzen.

Lucas Darius Konrad, Nikolas Kuschnig2026-03-06🔢 math

Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets

Die Studie stellt SACP (Symmetric Aggregated Conformal Prediction) vor, eine neuartige Methode zur effizienten Aggregation von Konformitätswerten mehrerer Vorhersagemodelle durch e-Werte und symmetrische Aggregationsfunktionen, um präzisere und zuverlässigere Unsicherheitsmengen zu erzeugen.

Nabil Alami, Jad Zakharia, Souhaib Ben Taieb2026-03-06💻 cs

A Bayesian approach to learning mixtures of nonparametric components

Dieses Papier stellt einen bayesschen nichtparametrischen Ansatz zur Modellierung endlicher Mischungen vor, der Identifizierbarkeitsbedingungen und nahezu polynomielle Konvergenzraten für die Komponentenverteilungen nachweist sowie einen effizienten MCMC-Algorithmus für die Inferenz entwickelt.

Yilei Zhang, Yun Wei, Aritra Guha + 1 more2026-03-06🔢 math

Towards Sharp Minimax Risk Bounds for Operator Learning

Die Arbeit entwickelt eine Minimax-Theorie für das Lernen von Operatoren zwischen Hilbert-Räumen und zeigt, dass selbst bei höheren Regularitätsannahmen wie Hölder-Stetigkeit für generische Lipschitz-Operatoren ein Fluch der Stichprobenkomplexität besteht, der eine algebraische Konvergenzrate der Minimix-Risiken verhindert.

Ben Adcock, Gregor Maier, Rahul Parhi2026-03-06🔢 math

Latent-IMH: Efficient Bayesian Inference for Inverse Problems with Approximate Operators

Die Arbeit stellt Latent-IMH vor, eine effiziente Bayessche Inferenzmethode für inverse Probleme mit rechenintensiven Operatoren, die durch die Nutzung einer kostengünstigen Näherung in einer Offline-Phase und eine anschließende Verfeinerung mit dem exakten Operator die Rechenzeit im Vergleich zu State-of-the-Art-Methoden wie NUTS drastisch reduziert.

Youguang Chen, George Biros2026-03-06🔢 math

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Die Arbeit stellt einen Variationsrahmen vor, der Transformer-Schichten als Optimierungsalgorithmen interpretiert, und nutzt diese Perspektive, um einen Nesterov-beschleunigten Transformer zu entwickeln, der auf TinyStories und OpenWebText eine bessere Leistung als ein nanoGPT-Baseline erzielt.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

Optimal training-conditional regret for online conformal prediction

Diese Arbeit stellt Algorithmen für das Online-Konformale Vorhersagen bei nicht-stationären Datenströmen vor, die durch Drifterkennung adaptiv Kalibrierungsdaten aktualisieren und damit minimax-optimale trainingsbedingte Regret-Garantien für abrupte Änderungen sowie glatte Drifts erreichen.

Jiadong Liang, Zhimei Ren, Yuxin Chen2026-03-06🔢 math

Regularized Online RLHF with Generalized Bilinear Preferences

Die Arbeit stellt zwei statistisch effiziente Algorithmen für das kontextuelle Online-RLHF mit einem generalisierten bilinearen Präferenzmodell vor, die durch die Ausnutzung der starken Konvexität und der Schief-Symmetrie polylogarithmische bzw. dimensionsunabhängige Regret-Schranken garantieren.

Junghyun Lee, Minju Hong, Kwang-Sung Jun + 2 more2026-03-06💻 cs

Conformal Graph Prediction with Z-Gromov Wasserstein Distances

Die Autoren schlagen einen konformen Vorhersagerahmen für graphenbasierte Ausgaben vor, der mithilfe des Z-Gromov-Wasserstein-Abstands und der Score Conformalized Quantile Regression (SCQR) eine verteilungsfreie Unsicherheitsquantifizierung für strukturierte Graphen wie Moleküle ermöglicht.

Gabriel Melo, Thibaut de Saivre, Anna Calissano + 1 more2026-03-06💻 cs

Decorrelating the Future: Joint Frequency Domain Learning for Spatio-temporal Forecasting

Die vorgestellte Arbeit führt den FreST-Loss ein, eine frequenzbasierte Trainingsmethode, die mithilfe der gemeinsamen Fourier-Transformation räumliche und zeitliche Abhängigkeiten in Graphdaten gemeinsam im Spektralbereich modelliert und so bestehende Vorhersagemodelle signifikant verbessert.

Zepu Wang, Bowen Liao, Jeff + 1 more2026-03-06💻 cs

Machine Learning for Complex Systems Dynamics: Detecting Bifurcations in Dynamical Systems with Deep Neural Networks

Diese Studie stellt eine neuartige Methode namens equilibrium-informed neural networks (EINNs) vor, die mithilfe von Deep Neural Networks kritische Schwellenwerte für abrupte Regimewechsel in komplexen dynamischen Systemen effizient identifiziert, indem sie Gleichgewichtszustände als Eingabe nutzt, um die entsprechenden Systemparameter zu inferieren.

Swadesh Pal, Roderick Melnik2026-03-06🔢 math

Dictionary Based Pattern Entropy for Causal Direction Discovery

Die Studie stellt ein neues Framework namens Dictionary Based Pattern Entropy (DPE) vor, das mithilfe von algorithmischer und Shannon-Informationstheorie kausale Richtungen in symbolischen Zeitreihen durch die Minimierung der Unsicherheit von mustergesteuerten Strukturen zuverlässig identifiziert.

Harikrishnan N B, Shubham Bhilare, Aditi Kathpalia + 1 more2026-03-06🔢 math

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Diese Arbeit untersucht die Kollatz-Stop-Zeit über $n \le 10^7$ mittels eines bayesschen hierarchischen Negativ-Binomial-Modells und einer mechanistischen Generatormethode, wobei die Ergebnisse zeigen, dass die Berücksichtigung modularer Restklassen die Verteilungsanpassung erheblich verbessert und das NB2-GLM die höchste Vorhersagegüte erzielt.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math

← Zurück Weiter →