cs.LG Arbeiten | Gist.Science

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks

Die Arbeit stellt LoRA-Ensemble vor, eine parametereffiziente Methode zur Unsicherheitsmodellierung in Self-Attention-Netzwerken, die durch die Nutzung individueller Low-Rank-Matrizen innerhalb eines geteilten Moduls die Genauigkeit expliziter Ensembles erreicht und gleichzeitig eine überlegene Kalibrierung sowie geringere Rechenkosten bietet.

Dominik J. Mühlematter, Michelle Halbheer, Alexander Becker, Dominik Narnhofer, Helge Aasen, Konrad Schindler, Mehmet Ozgur Turkoglu2026-03-10🤖 cs.LG

Fast Explanations via Policy Gradient-Optimized Explainer

Die Arbeit stellt FEX vor, ein neuartiges Framework, das attributionsbasierte Erklärungen durch Wahrscheinlichkeitsverteilungen und Policy-Gradient-Optimierung ermöglicht, um die Erklärungszeit um über 97 % und den Speicherverbrauch um 70 % im Vergleich zu herkömmlichen modellunabhängigen Ansätzen zu reduzieren, ohne dabei die Qualität oder allgemeine Anwendbarkeit zu beeinträchtigen.

Deng Pan, Nuno Moniz, Nitesh Chawla2026-03-10🤖 cs.LG

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Diese Arbeit identifiziert und analysiert eine unerwartete „Korruptionsphase" während des Few-Shot-Fine-Tunings von Diffusionsmodellen, die durch eine verengte Lernverteilung verursacht wird, und schlägt vor, Bayesianische Neuronale Netze zur impliziten Verbreiterung dieser Verteilung einzusetzen, um die Bildqualität und Vielfalt zu verbessern, ohne zusätzliche Inferenzkosten zu verursachen.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning

Die vorgestellte Arbeit stellt DKDL-Net vor, ein leichtgewichtiges Modell zur Erkennung von Wälzlagerfehlern, das durch Entkopplung von Wissensdistillation und Low-Rank-Adaptions-Feinabstimmung eine Genauigkeit von 99,48 % bei deutlich reduzierter Parameteranzahl erreicht und damit den aktuellen Stand der Technik übertrifft.

Ovanes Petrosian, Li Pengyi, He Yulong + 4 more2026-03-10🤖 cs.LG

Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Die Studie stellt einen strukturierten semiparametrischen Ansatz vor, der auf Double Machine Learning basiert, um verzerrte Schätzer in randomisierten Experimenten auf Plattformen mit algorithmischer Interferenz zu korrigieren und so präzise globale Behandlungseffekte für den flächendeckenden Einsatz von Algorithmen zu ermöglichen.

Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang2026-03-10🤖 cs.LG

LAMBDA: A Large Model Based Data Agent

LAMBDA ist ein neuartiges, quelloffenes und code-freies Multi-Agenten-System, das auf großen Sprachmodellen basiert und durch die Zusammenarbeit eines Programmier- und eines Prüfer-Agenten sowie die Möglichkeit zur menschlichen Eingriffnahme und Integration externer Algorithmen Datenanalysen für Nutzer unterschiedlicher Hintergründe zugänglicher und effizienter macht.

Maojun Sun, Ruijian Han, Binyan Jiang + 4 more2026-03-10🤖 cs.AI

OTAD: An Optimal Transport-Induced Robust Model for Agnostic Adversarial Attack

Die Arbeit stellt OTAD vor, ein neuartiges zweistufiges Verteidigungsmodell, das die Vorteile von adversarialem Training und Lipschitz-Netzen durch die Nutzung optimaler Transporttheorie und konvexer Integration vereint, um Deep-Learning-Systeme sowohl präzise als auch lokal Lipschitz-stetig und damit robust gegenüber unbekannten Angriffen zu machen.

Kuo Gai, Sicong Wang, Shihua Zhang2026-03-10🤖 cs.LG

Mini-batch Estimation for Deep Cox Models: Statistical Foundations and Practical Guidance

Die Arbeit etabliert die statistischen Grundlagen des Mini-Batch-Maximum-Partial-Likelihood-Schätzers (mb-MPLE) für Deep-Cox-Modelle, beweist dessen Konsistenz und asymptotische Normalität und liefert praktische Richtlinien für das Hyperparameter-Tuning sowie die Anwendung in großskaligen Szenarien, in denen herkömmliche Schätzer nicht berechenbar sind.

Lang Zeng, Weijing Tang, Zhao Ren, Ying Ding2026-03-10🤖 cs.LG

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

Diese Arbeit schlägt einen effizienten Annealed Importance Sampling-Ansatz zur Verbesserung des Variational Learning von Gaussian Process Latent Variable Models vor, der durch eine sequenzielle Transformation der Posterior-Verteilung und eine Reparameterisierung des ELBO robustere Konvergenz und engere Variationsgrenzen als bestehende Methoden erreicht.

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John Paisley2026-03-10🤖 cs.LG

The Z-Gromov-Wasserstein Distance

Dieses Paper führt die $Z$ -Gromov-Wasserstein-Distanz als allgemeine Methode zum Vergleich von $Z$ -Netzwerken ein, die als einheitlicher Rahmen für bestehende Varianten dient und deren theoretische Eigenschaften sowie praktische Berechenbarkeit untersucht.

Martin Bauer, Facundo Mémoli, Tom Needham + 1 more2026-03-10🤖 cs.LG

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Die Studie warnt davor, Post-Hoc-Erklärungen wie SHAP und LIME in der Wirtschaftsforschung zur Hypothesenvalidierung zu verwenden, da sie trotz hoher Vorhersagegenauigkeit durch Feature-Korrelationen und den Rashomon-Effekt oft keine zuverlässigen Rückschlüsse auf die tatsächlichen Datenzusammenhänge zulassen und daher eher als explorative als als bestätigende Werkzeuge eingesetzt werden sollten.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu2026-03-10🤖 cs.LG

Reconsidering the energy efficiency of spiking neural networks

Diese Arbeit widerlegt die vereinfachte Annahme der überlegenen Energieeffizienz von Spiking Neural Networks durch eine rigorose Neubewertung, die Datenbewegungskosten berücksichtigt, und identifiziert spezifische Betriebsbedingungen, unter denen SNNs gegenüber äquivalenten Quantisierten Neuronalen Netzen tatsächlich effizienter sind und die Akkulaufzeit von Geräten wie Smartwatches nahezu verdoppeln können.

Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong2026-03-10🤖 cs.LG

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Diese Arbeit stellt ein neuartiges Modell gekoppelter Oszillatoren (CON) vor, das durch die Kombination von Lagrange-Struktur, globaler Input-to-State-Stabilität und einer invertierbaren Abbildung zwischen Eingabe und latenter Kraft effiziente, modellbasierte Regelung im latenten Raum für physikalische Systeme ermöglicht, wie am Beispiel eines Soft-Roboters demonstriert wird.

Maximilian Stölzle, Cosimo Della Santina2026-03-10🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Das Paper stellt xTED vor, ein Framework, das mithilfe eines speziell entwickelten Diffusionsmodells Trajektorien aus einer Quell-Domäne direkt auf Daten-Ebene an eine Ziel-Domäne anpasst, um Domänenlücken universell zu überbrücken und so eine flexible und effiziente Politikübertragung auch bei begrenzten Ziel-Daten zu ermöglichen.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan Zhan2026-03-10🤖 cs.LG

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching

Die Arbeit stellt BNEM vor, einen auf Bootstrapping und Noised Energy Matching basierenden Boltzmann-Sampler, der effizient und robust IID-Stichproben aus Energiefunktionen generiert und dabei den Stand der Technik in Bezug auf Leistung und Stabilität übertrifft.

RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato2026-03-10🤖 cs.LG

Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action

Diese Arbeit zeigt, dass Policy-Gradient-Methoden für eine Klasse von endlich-horizontigen MDPs mit allgemeinen Zustands- und Aktionsräumen trotz Nichtkonvexität durch die Etablierung einer Polyak-Łojasiewicz-Kurdyka-Bedingung global konvergieren und dabei erstmals sample-complexity-Garantien für stochastische Lagerhaltungs- und Kassenhaltungsprobleme liefern.

Xin Chen, Yifan Hu, Minda Zhao2026-03-10🤖 cs.LG

Neural delay differential equations: learning non-Markovian closures for partially known dynamical systems

Die Arbeit stellt ein kontinuierliches Zeit-Modell auf Basis von neuronalen Verzögerungsdifferentialgleichungen vor, das mithilfe des Mori-Zwanzig-Formalismus und des Adjungierten-Verfahrens nicht-Markowsche Dynamiken aus teilweise beobachtbaren Daten lernt und dabei bestehende Methoden wie LSTMs und ANODEs übertrifft.

Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat2026-03-10🤖 cs.LG

Open-World Reinforcement Learning over Long Short-Term Imagination

Das Paper stellt LS-Imagine vor, eine Methode, die durch die Einführung eines lang-kurzfristigen Weltmodells und die Simulation zielgerichteter Sprungübergänge die Erkundungseffizienz in hochdimensionalen offenen Welten verbessert und so langfristige Belohnungen effektiver nutzt.

Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin, Yang Li, Wenjun Zeng, Xiaokang Yang2026-03-10🤖 cs.LG

How Learning Dynamics Drive Adversarially Robust Generalization?

Die Arbeit führt ein PAC-Bayes-Analyserahmenwerk ein, das Adversarial Training als diskretes dynamisches System modelliert, um durch die Verfolgung der Posterior-Entwicklung einen mechanistischen Erklärungsansatz für robustes Overfitting zu liefern und die Wirkung von Adversarial Weight Perturbation auf die Generalisierung zu beleuchten.

Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems

Die Studie zeigt, dass Transformer-Modelle im In-Context-Learning-Modus ohne Gradienten-Updates oder explizites Systemwissen versteckte Zustände dynamischer Systeme implizit schätzen können, um Vorhersagen zu treffen, die in linearen und nichtlinearen Szenarien mit klassischen Methoden wie dem Kalman-Filter oder Partikelfiltern konkurrieren.

Usman Akram, Haris Vikalo2026-03-10🤖 cs.LG

← Zurück Weiter →