Learning under Distributional Drift: Prequential Reproducibility as an Intrinsic Statistical Resource

Diese Arbeit führt ein intrinsisches Drift-Budget CTC_T ein, das die kumulative Fisher-Rao-Bewegung der Datenverteilung in geschlossenen Lernsystemen quantifiziert und zeigt, dass die Reproduzierbarkeit der Vorhersagen durch eine untere Schranke von T1/2+CT/TT^{-1/2} + C_T/T bestimmt wird, welche die unvermeidbare Genauigkeitsgrenze bei nicht vernachlässigbarer Drift festlegt.

Sofiya Zaichyk2026-03-05🤖 cs.LG

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization

Die vorgestellte Arbeit schlägt ein tensorfaktorisierungsbasiertes statistisches Modell vor, das kostengünstige automatische Bewertungen mit einer kleinen Menge menschlicher Referenzdaten kombiniert, um effiziente, promptgenaue Evaluierungen von Generativmodellen durchzuführen, die menschliche Präferenzen präziser vorhersagen als herkömmliche Methoden.

Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti + 2 more2026-03-05🤖 cs.AI

Surprisal-Rényi Free Energy

Dieses Paper stellt die Surprisal-Rényi-Free-Energy (SRFE) als ein neuartiges, log-momentenbasiertes Funktional vor, das die Vorwärts- und Rückwärts-KL-Divergenzen als Grenzfälle umfasst und durch eine explizite Mittelwert-Varianz-Tradeoff-Struktur sowie eine präzise Minimum-Description-Length-Interpretation die geometrischen und großen-Abweichungs-Eigenschaften dieser Lernrahmenwerke aufklärt.

Shion Matsumoto, Raul Castillo, Benjamin Prada + 1 more2026-03-05🤖 cs.LG

Scalable Contrastive Causal Discovery under Unknown Soft Interventions

Die Autoren stellen ein skalierbares Modell zur kausalen Entdeckung vor, das unter der Annahme unbekannter weicher Interventionen durch kontrastives Lernen über Beobachtungs- und Interventionsregimes hinweg eine global konsistente kausale Struktur rekonstruiert und dabei theoretisch fundierte Verbesserungen gegenüber nicht-kontrastiven Methoden sowie eine bessere Generalisierungsfähigkeit bietet.

Mingxuan Zhang, Khushi Desai, Sopho Kevlishvili + 1 more2026-03-05🤖 cs.LG

Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning

Die Autoren stellen einen minimax-optimalen Algorithmus für das Reinforcement Learning mit verzögerten Zustandsbeobachtungen vor, der durch die Kombination von Augmentierung und Upper Confidence Bound eine Regret-Schranke von O~(HDmaxSAK)\tilde{\mathcal{O}}(H \sqrt{D_{\max} SAK}) erreicht und durch ein passendes unteres Limit als optimal nachgewiesen wird.

Harin Lee, Kevin Jamieson2026-03-05🤖 cs.LG

Controllable Generative Sandbox for Causal Inference

Das Paper stellt CausalMix vor, ein variationsbasiertes generatives Framework, das durch die Kombination von Misch-Gauß-Verteilungen und datentypspezifischen Dekodern sowohl realistische gemischte tabellarische Daten erzeugt als auch eine präzise, unabhängige Kontrolle über kausale Mechanismen wie Überlappung, Konfundierung und Heterogenität des Behandlungseffekts ermöglicht.

Qi Zhang, Harsh Parikh, Ashley Naimi + 3 more2026-03-05🤖 cs.LG

A Stein Identity for q-Gaussians with Bounded Support

Dieses Paper leitet eine neue Stein-Identität für q-Gaußsche Verteilungen mit beschränktem Träger her, die durch die Verwendung von Eskort-Verteilungen und die Erweiterung bestehender Theoreme Gradientenschätzer mit nahezu gleicher Form wie bei Gaußschen Verteilungen ermöglicht und so die Varianz in Anwendungen wie dem Bayesschen Deep Learning reduziert.

Sophia Sklaviadis, Thomas Moellenhoff, Andre F. T. Martins + 2 more2026-03-05🤖 cs.LG

Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data

Diese Arbeit leitet unter milden Regularitätsbedingungen endliche Stichprobenfehlerabschätzungen für Score-matching Diffusionsmodelle her, die zeigen, dass die Konvergenzrate in der Wasserstein-pp-Metrik von der intrinsischen (p,q)(p,q)-Wasserstein-Dimension der Daten abhängt und somit den Fluch der Dimensionalität überwindet, ohne Kompaktheits- oder Glattheitsannahmen zu benötigen.

Saptarshi Chakraborty, Quentin Berthet, Peter L. Bartlett2026-03-05🤖 cs.AI

Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation

Die Arbeit stellt ein Zwei-Phasen-Rahmenwerk namens Suffix Imitation vor, das es einem passiven Beobachter ermöglicht, ohne Zugriff auf Belohnungen die optimalen Parameter eines nicht-stationären Lernenden zu rekonstruieren und dabei eine Konvergenzrate von O~(1/N)\tilde O(1/\sqrt{N}) zu erreichen, die der eines belohnungsbewussten Lernenden entspricht.

Yuqi Kong, Xiao Zhang, Weiran Shen2026-03-05🤖 cs.LG