cs.LG Arbeiten | Gist.Science

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Die Arbeit stellt SPAARS vor, ein Curriculum-Learning-Framework für das Offline-zu-Online-Reinforcement-Learning, das die Exploration zunächst sicher in einem latenten Raum einschränkt und dann nahtlos in den rohen Aktionsraum übergeht, um die durch Decoder-Rekonstruktionsverluste bedingte Leistungsgrenze zu überwinden und gleichzeitig die Sample-Effizienz sowie die Stabilität zu steigern.

Swaminathan S K, Aritra Hazra2026-03-11🤖 cs.AI

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Die Arbeit stellt den vollständig konvolutionalen Diffusionsmodell (FCDM) vor, der auf ConvNeXt basiert und durch seine überlegene Recheneffizienz sowie trainierbarkeit auf begrenzter Hardware eine wettbewerbsfähige Alternative zu Transformer-basierten Diffusionsmodellen darstellt.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

Reconstructing Movement from Sparse Samples: Enhanced Spatio-Temporal Matching Strategies for Low-Frequency Data

Diese Arbeit verbessert den räumlich-zeitlichen Matching-Algorithmus zur Zuordnung von GPS-Trajektorien zu Straßennetzen durch vier Modifikationen wie einen dynamischen Puffer und eine adaptive Beobachtungswahrscheinlichkeit, was zu einer signifikanten Steigerung der Recheneffizienz und der Pfadqualität bei Daten mit niedriger Abtastrate in dichten Umgebungen führt.

Ali Yousefian, Arianna Burzacchi, Simone Vantini2026-03-11🤖 cs.LG

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

Diese Arbeit analysiert systematisch den Einfluss von Markov-Entscheidungsprozess-Designentscheidungen auf die Sim-zu-Real-Übertragung beim Reinforcement Learning und zeigt anhand eines Farbmischungs-Experiments, dass physikbasierte Dynamikmodelle unter strengen Präzisionsanforderungen bis zu 50 % Erfolg auf realer Hardware ermöglichen, während vereinfachte Modelle versagen.

Tatjana Krau, Jorge Mandlmaier, Tobias Damm, Frieder Heieck2026-03-11🤖 cs.LG

From Weighting to Modeling: A Nonparametric Estimator for Off-Policy Evaluation

Die Autoren stellen einen neuen nichtparametrischen Ansatz zur Off-Policy-Evaluation vor, der durch die Kombination von nichtparametrischer Gewichtung und modellgestützten Belohnungsvorhersagen im Vergleich zu bestehenden Methoden wie IPW und DR eine signifikant niedrigere Varianz bei gleichzeitig geringer Verzerrung erreicht.

Rong J. B. Zhu2026-03-11🤖 cs.LG

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Die Arbeit stellt VMoER vor, einen skalierbaren bayesschen Ansatz, der die Unsicherheitsquantifizierung in Mixture-of-Experts-Transformern durch eine strukturierte Inferenz im Routing-Mechanismus ermöglicht und dabei die Kalibrierung sowie die Stabilität bei gleichzeitiger Minimierung des Rechenaufwards erheblich verbessert.

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

Diese Arbeit stellt Temporal-Conditioned Normalizing Flows (tcNF) vor, ein neues Framework zur Anomalieerkennung in multivariaten Zeitreihen, das durch die Bedingungung normalisierender Flüsse auf vorherige Beobachtungen komplexe zeitliche Abhängigkeiten modelliert und robuste Wahrscheinlichkeitsverteilungen für die Identifizierung von Anomalien liefert.

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

TrainDeeploy ist ein Framework, das die hardwarebeschleunigte, parameter-effiziente Feinabstimmung von kleinen Transformer- und CNN-Modellen direkt auf extrem ressourcenbeschränkten Edge-Geräten ermöglicht und damit erstmals einen vollständigen On-Device-Trainings-Pipeline für heterogene SoCs bereitstellt.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca Benini2026-03-11🤖 cs.LG

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Die Studie zeigt, dass Sprachmodelle durch das Training auf semantisch treuen Umschreibungen subliminal Präferenzen von einem Lehrermodell übernehmen können, selbst wenn der Inhalt diese Präferenzen explizit widerspricht, was die Wirksamkeit rein inhaltsbasierter Sicherheitsfilter in Frage stellt.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)2026-03-11🤖 cs.LG

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Die vorgestellte Arbeit stellt EDA vor, einen parameter- und dateneffizienten Rahmen zur Anpassung von Draft-Modellen, der durch eine entkoppelte Architektur, eine Strategie zur Datenregeneration und eine Stichprobenauswahl die Leistung des spekulativen Decodings bei feinabgestimmten Zielmodellen mit geringeren Trainingskosten wiederherstellt.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Die Arbeit führt BRACE ein, einen parameterfreien Algorithmus für Banditen mit Nichtkonformität, der durch eine klare Unterscheidung zwischen Empfehlungswohlfahrt und Behandlungseffekten sowie durch zertifizierte Intervalle sowohl die optimale Empfehlungsstrategie als auch die strukturell optimale Behandlungsstrategie unter Unsicherheit und schwacher Identifikation zuverlässig ermittelt.

Nicolás Della Penna2026-03-11🤖 cs.LG

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Diese Arbeit demonstriert, dass sich Mamba-2 durch compilerbasierte XLA-Optimierungen ohne handgeschriebene CUDA-Kernels effizient auf CPU, NVIDIA-GPUs und TPUs portieren lässt, wodurch eine theoretische $O(1)$ -Zustandsverwaltung und hardwareunabhängige Inferenz mit hoher Leistung erreicht werden.

Cosmo Santoni2026-03-11🤖 cs.AI

Learning Bayesian and Markov Networks with an Unreliable Oracle

Die Arbeit untersucht das strukturelle Lernen von Markov- und Bayesianischen Netzwerken unter Verwendung eines unzuverlässigen Orakels und zeigt, dass Markov-Netzwerke auch bei moderat exponentiellen Fehlern identifizierbar sind, während Bayesianische Netzwerke selbst bei beschränkten Graphparametern keine Fehler tolerieren können, sofern eine eindeutige Identifizierbarkeit gewährleistet werden soll.

Juha Harviainen, Pekka Parviainen, Vidya Sagar Sharma2026-03-11🤖 cs.LG

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

Die vorgestellte Arbeit stellt den a-TMFG-Algorithmus vor, der durch die Nutzung von k-Nächste-Nachbarn-Graphen und eine On-the-Fly-Schätzung von Korrelationen die Skalierbarkeit des traditionellen TMFG-Verfahrens auf Datensätze mit Millionen von Beobachtungen ermöglicht.

Lionel Yelibi2026-03-11🤖 cs.LG

An Optimal Control Approach To Transformer Training

Diese Arbeit stellt einen optimalen Steuerungsansatz für das Transformer-Training vor, der die Architektur als gesteuertes Partikelsystem modelliert, um über einen gehobenen Markov-Entscheidungsprozess globale Optimalität und Robustheit ohne Gradientenabstieg zu gewährleisten.

Ka\u{g}an Akman, Naci Saldı, Serdar Yüksel2026-03-11🤖 cs.LG

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Die Arbeit stellt SCDP vor, einen Sensor-geführten Diffusionsansatz, der durch eine gemischte Beobachtungstraining-Methode die robuste Steuerung von humanoider Lokomotion ausschließlich auf Basis onboarder Sensoren ermöglicht und dabei den Bedarf an komplexer Zustandsabschätzung eliminiert.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li2026-03-11🤖 cs.LG

Routing without Forgetting

Die Arbeit stellt „Routing without Forgetting" (RwF) vor, eine Transformer-Architektur, die durch energie-basierte assoziative Abrufschichten dynamische Prompts generiert und so das Problem des Vergessens im Online-Continual-Learning ohne explizite Aufgabenkennungen oder wiederholte Optimierung löst.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

Towards Understanding Adam Convergence on Highly Degenerate Polynomials

Diese Arbeit zeigt, dass der Adam-Optimierer auf hochdegenerierten Polynomen ohne externe Scheduler automatisch konvergiert und durch einen Entkopplungsmechanismus zwischen dem zweiten Moment und dem quadrierten Gradienten eine lineare Konvergenzgeschwindigkeit erreicht, die Gradientenabstieg und Momentum signifikant übertrifft.

Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang2026-03-11🤖 cs.LG

Nonparametric Variational Differential Privacy via Embedding Parameter Clipping

Diese Arbeit stellt eine theoretisch fundierte Parameterverschneidungsmethode vor, die auf der Minimierung der Rényi-Divergenz basiert und in nichtparametrischen variationalen Differentialprivacy-Modellen sowohl strengere Privatsphärengarantien als auch eine höhere Nützlichkeit bei Downstream-Aufgaben ermöglicht.

Dina El Zein, Shashi Kumar, James Henderson2026-03-11🤖 cs.LG

Memorization capacity of deep ReLU neural networks characterized by width and depth

Diese Arbeit charakterisiert die Speicherkapazität von tiefen ReLU-Neuronalen Netzen, indem sie zeigt, dass die Kombination aus Breite und Tiefe durch die Beziehung $W^2L^2 = \Theta(N\log(\delta^{-1}))$ optimal ist, um beliebige $N$ Datenpunkte mit einem Mindestabstand $\delta$ zu memorieren.

Xin Yang, Yunfei Yang2026-03-11🤖 cs.LG

← Zurück Weiter →

cs.LG