LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks

Die Arbeit stellt LoRA-Ensemble vor, eine parametereffiziente Methode zur Unsicherheitsmodellierung in Self-Attention-Netzwerken, die durch die Nutzung individueller Low-Rank-Matrizen innerhalb eines geteilten Moduls die Genauigkeit expliziter Ensembles erreicht und gleichzeitig eine überlegene Kalibrierung sowie geringere Rechenkosten bietet.

Dominik J. Mühlematter, Michelle Halbheer, Alexander Becker, Dominik Narnhofer, Helge Aasen, Konrad Schindler, Mehmet Ozgur Turkoglu2026-03-10🤖 cs.LG

Fast Explanations via Policy Gradient-Optimized Explainer

Die Arbeit stellt FEX vor, ein neuartiges Framework, das attributionsbasierte Erklärungen durch Wahrscheinlichkeitsverteilungen und Policy-Gradient-Optimierung ermöglicht, um die Erklärungszeit um über 97 % und den Speicherverbrauch um 70 % im Vergleich zu herkömmlichen modellunabhängigen Ansätzen zu reduzieren, ohne dabei die Qualität oder allgemeine Anwendbarkeit zu beeinträchtigen.

Deng Pan, Nuno Moniz, Nitesh Chawla2026-03-10🤖 cs.LG

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Diese Arbeit identifiziert und analysiert eine unerwartete „Korruptionsphase" während des Few-Shot-Fine-Tunings von Diffusionsmodellen, die durch eine verengte Lernverteilung verursacht wird, und schlägt vor, Bayesianische Neuronale Netze zur impliziten Verbreiterung dieser Verteilung einzusetzen, um die Bildqualität und Vielfalt zu verbessern, ohne zusätzliche Inferenzkosten zu verursachen.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning

Die vorgestellte Arbeit stellt DKDL-Net vor, ein leichtgewichtiges Modell zur Erkennung von Wälzlagerfehlern, das durch Entkopplung von Wissensdistillation und Low-Rank-Adaptions-Feinabstimmung eine Genauigkeit von 99,48 % bei deutlich reduzierter Parameteranzahl erreicht und damit den aktuellen Stand der Technik übertrifft.

Ovanes Petrosian, Li Pengyi, He Yulong + 4 more2026-03-10🤖 cs.LG

Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Die Studie stellt einen strukturierten semiparametrischen Ansatz vor, der auf Double Machine Learning basiert, um verzerrte Schätzer in randomisierten Experimenten auf Plattformen mit algorithmischer Interferenz zu korrigieren und so präzise globale Behandlungseffekte für den flächendeckenden Einsatz von Algorithmen zu ermöglichen.

Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang2026-03-10🤖 cs.LG

Mini-batch Estimation for Deep Cox Models: Statistical Foundations and Practical Guidance

Die Arbeit etabliert die statistischen Grundlagen des Mini-Batch-Maximum-Partial-Likelihood-Schätzers (mb-MPLE) für Deep-Cox-Modelle, beweist dessen Konsistenz und asymptotische Normalität und liefert praktische Richtlinien für das Hyperparameter-Tuning sowie die Anwendung in großskaligen Szenarien, in denen herkömmliche Schätzer nicht berechenbar sind.

Lang Zeng, Weijing Tang, Zhao Ren, Ying Ding2026-03-10🤖 cs.LG

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

Diese Arbeit schlägt einen effizienten Annealed Importance Sampling-Ansatz zur Verbesserung des Variational Learning von Gaussian Process Latent Variable Models vor, der durch eine sequenzielle Transformation der Posterior-Verteilung und eine Reparameterisierung des ELBO robustere Konvergenz und engere Variationsgrenzen als bestehende Methoden erreicht.

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John Paisley2026-03-10🤖 cs.LG

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Die Studie warnt davor, Post-Hoc-Erklärungen wie SHAP und LIME in der Wirtschaftsforschung zur Hypothesenvalidierung zu verwenden, da sie trotz hoher Vorhersagegenauigkeit durch Feature-Korrelationen und den Rashomon-Effekt oft keine zuverlässigen Rückschlüsse auf die tatsächlichen Datenzusammenhänge zulassen und daher eher als explorative als als bestätigende Werkzeuge eingesetzt werden sollten.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu2026-03-10🤖 cs.LG

Reconsidering the energy efficiency of spiking neural networks

Diese Arbeit widerlegt die vereinfachte Annahme der überlegenen Energieeffizienz von Spiking Neural Networks durch eine rigorose Neubewertung, die Datenbewegungskosten berücksichtigt, und identifiziert spezifische Betriebsbedingungen, unter denen SNNs gegenüber äquivalenten Quantisierten Neuronalen Netzen tatsächlich effizienter sind und die Akkulaufzeit von Geräten wie Smartwatches nahezu verdoppeln können.

Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong2026-03-10🤖 cs.LG

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Diese Arbeit stellt ein neuartiges Modell gekoppelter Oszillatoren (CON) vor, das durch die Kombination von Lagrange-Struktur, globaler Input-to-State-Stabilität und einer invertierbaren Abbildung zwischen Eingabe und latenter Kraft effiziente, modellbasierte Regelung im latenten Raum für physikalische Systeme ermöglicht, wie am Beispiel eines Soft-Roboters demonstriert wird.

Maximilian Stölzle, Cosimo Della Santina2026-03-10🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Das Paper stellt xTED vor, ein Framework, das mithilfe eines speziell entwickelten Diffusionsmodells Trajektorien aus einer Quell-Domäne direkt auf Daten-Ebene an eine Ziel-Domäne anpasst, um Domänenlücken universell zu überbrücken und so eine flexible und effiziente Politikübertragung auch bei begrenzten Ziel-Daten zu ermöglichen.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan Zhan2026-03-10🤖 cs.LG

Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action

Diese Arbeit zeigt, dass Policy-Gradient-Methoden für eine Klasse von endlich-horizontigen MDPs mit allgemeinen Zustands- und Aktionsräumen trotz Nichtkonvexität durch die Etablierung einer Polyak-Łojasiewicz-Kurdyka-Bedingung global konvergieren und dabei erstmals sample-complexity-Garantien für stochastische Lagerhaltungs- und Kassenhaltungsprobleme liefern.

Xin Chen, Yifan Hu, Minda Zhao2026-03-10🤖 cs.LG

Neural delay differential equations: learning non-Markovian closures for partially known dynamical systems

Die Arbeit stellt ein kontinuierliches Zeit-Modell auf Basis von neuronalen Verzögerungsdifferentialgleichungen vor, das mithilfe des Mori-Zwanzig-Formalismus und des Adjungierten-Verfahrens nicht-Markowsche Dynamiken aus teilweise beobachtbaren Daten lernt und dabei bestehende Methoden wie LSTMs und ANODEs übertrifft.

Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat2026-03-10🤖 cs.LG