cs.LG Arbeiten | Gist.Science

A Multi-Prototype-Guided Federated Knowledge Distillation Approach in AI-RAN Enabled Multi-Access Edge Computing System

Dieser Artikel stellt einen multi-prototypenbasierten Ansatz für das federierte Wissensdistillieren (MP-FedKD) in KI-RAN-fähigen Multi-Access-Edge-Computing-Systemen vor, der durch die Integration von Selbst-Wissensdistillierung, einer bedingten hierarchischen agglomerativen Clustering-Methode und einer neuen Verlustfunktion die Herausforderungen nicht-uniform verteilter Daten überwindet und dabei die Genauigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Luyao Zou, Hayoung Oh, Chu Myaet Thwal, Apurba Adhikary, Seohyeon Hong, Zhu Han2026-03-11🤖 cs.LG

Upper Generalization Bounds for Neural Oscillators

Diese Arbeit leitet theoretische obere PAC-Generalisierungsschranken für neuronale Oszillatoren auf Basis von ODEs und MLPs her, zeigt, dass die Fehlerpolynome in MLP-Größe und Zeitlänge wachsen, und bestätigt durch numerische Studien, dass die Regularisierung der Lipschitz-Konstanten die Generalisierungsfähigkeit bei begrenzten Trainingsdaten verbessert.

Zifeng Huang, Konstantin M. Zuev, Yong Xia, Michael Beer2026-03-11🤖 cs.LG

Global universality via discrete-time signatures

Die Arbeit beweist globale universelle Approximationssätze für stückweise lineare Pfade mittels linearer Funktionale ihrer Signaturen und wendet diese Ergebnisse auf stochastische Differentialgleichungen sowie Pfad-funktionale an, die durch Brownsche Bewegung getrieben werden.

Mihriban Ceylan, David J. Prömel2026-03-11🤖 cs.LG

What is Missing? Explaining Neurons Activated by Absent Concepts

Diese Arbeit zeigt, dass gängige Methoden der erklärbaren Künstlichen Intelligenz oft übersehen, dass Neuronen durch das Fehlen von Konzepten aktiviert werden, und schlägt einfache Erweiterungen vor, um diese „kodierten Abwesenheiten" in Deep-Learning-Modellen zu identifizieren und zu erklären.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Diese Arbeit stellt ein hybrides Quanten-Klassisch-Framework vor, das LSTM-Netze mit einem Quantum Circuit Born Machine kombiniert, um die Prognosegenauigkeit der Finanzmarktvolatilität im Vergleich zu rein klassischen Modellen signifikant zu verbessern.

Yixiong Chen2026-03-11⚛️ quant-ph

Exploiting Label-Aware Channel Scoring for Adaptive Channel Pruning in Split Learning

Die vorgeschlagene adaptive Kanalpruning-Methode (ACP-SL) nutzt ein labelbewusstes Scoring-Verfahren, um unwichtige Kanäle in Split Learning zu entfernen, wodurch die Kommunikationskosten durch komprimierte Datenübertragung gesenkt und die Testgenauigkeit im Vergleich zu bestehenden Ansätzen verbessert wird.

Jialei Tan, Zheng Lin, Xiangming Cai, Ruoxi Zhu, Zihan Fang, Pingping Chen, Wei Ni2026-03-11🤖 cs.AI

Information Theoretic Bayesian Optimization over the Probability Simplex

Dieses Paper stellt $\alpha$ -GaBO vor, eine neue Familie von Bayesian-Optimierungsalgorithmen für das Wahrscheinlichkeitssimplex, die auf informationstheoretischer Geometrie basiert und durch geometrisch angepasste Kernel sowie Optimierer eine überlegene Leistung im Vergleich zu herkömmlichen euklidischen Ansätzen zeigt.

Federico Pavesi, Antonio Candelieri, Noémie Jaquier2026-03-11🤖 cs.LG

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

Die Arbeit stellt „In-Context RLVR" vor, eine Methode, die durch die Nutzung von „Evidence Gain" als implizites Belohnungsgewicht die Qualität von Lösungswegen in Large Language Models verbessert, ohne externe Bewertungsmodelle zu benötigen.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

Correction of Transformer-Based Models with Smoothing Pseudo-Projector

Diese Arbeit stellt einen leichtgewichtigen „Pseudo-Projektor" vor, der von der Multigrid-Methode inspiriert ist und als Korrektur für versteckte Repräsentationen in Transformer-Modellen dient, um deren Robustheit gegenüber Rauschen zu erhöhen und das Trainingsverhalten zu verbessern, ohne die Kernarchitektur zu verändern.

Vitaly Bulgakov2026-03-11🤖 cs.AI

A Unified Hierarchical Multi-Task Multi-Fidelity Framework for Data-Efficient Surrogate Modeling in Manufacturing

Diese Arbeit stellt ein neuartiges hierarchisches Multi-Task-Multi-Fidelity-Framework für Gaußsche Prozesse vor, das durch die gleichzeitige Nutzung von Ähnlichkeiten zwischen Aufgaben und fidelityabhängigen Datenmerkmalen die Vorhersagegenauigkeit bei der Surrogatmodellierung in Fertigungssystemen signifikant verbessert.

Manan Mehta, Zhiqiao Dong, Yuhang Yang, Chenhui Shao2026-03-11🤖 cs.LG

A Graph-Based Approach to Spectrum Demand Prediction Using Hierarchical Attention Networks

Diese Arbeit stellt HR-GAT vor, ein hierarchisches Graph-Attention-Netzwerk, das mithilfe von Geodaten die Spektrumnachfrage präziser vorhersagt als herkömmliche Modelle und dabei räumliche Autokorrelationen effektiv berücksichtigt.

Mohamad Alkadamani, Halim Yanikomeroglu, Amir Ghasemi2026-03-11🤖 cs.AI

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

Das Paper stellt GAST vor, eine innovative Methode zur parametereffizienten Feinabstimmung großer Sprachmodelle, die durch eine einheitliche Optimierungsstrategie sowohl daten- als auch schichtselektive Anpassungen kombiniert, um Redundanzen zu minimieren und die Leistung gegenüber bestehenden Ansätzen zu steigern.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

CarbonBench: A Global Benchmark for Upscaling of Carbon Fluxes Using Zero-Shot Learning

Das Paper stellt CarbonBench vor, den ersten globalen Benchmark für das Zero-Shot-Learning zur Hochskalierung von Kohlenstoffflüssen, der über 1,3 Millionen Beobachtungen von 567 Messstellen nutzt, um die Generalisierungsfähigkeit von Modellen auf nicht trainierte Ökosysteme und Klimazonen systematisch zu evaluieren.

Aleksei Rozanov, Arvind Renganathan, Yimeng Zhang, Vipin Kumar2026-03-11🤖 cs.LG

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Die Arbeit stellt MSSR vor, ein Erfahrungswiederholungs-Framework für das kontinuierliche Fine-Tuning von LLMs, das durch die Schätzung der samplespezifischen Gedächtnisstärke und adaptive Intervalle für das Rehearsal katastrophales Vergessen effektiv reduziert, ohne die Anpassungsfähigkeit an neue Aufgaben zu beeinträchtigen.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

OptEMA: Adaptive Exponential Moving Average for Stochastic Optimization with Zero-Noise Optimality

Die Arbeit stellt OptEMA vor, einen adaptiven Exponential Moving Average-Optimierer für stochastische Probleme, der ohne Kenntnis der Lipschitz-Konstante auskommt und im noise-freien Fall eine nahezu optimale Konvergenzrate von $\widetilde{\mathcal{O}}(T^{-1/2})$ erreicht.

Ganzhao Yuan2026-03-11🤖 cs.LG

Generative Drifting is Secretly Score Matching: a Spectral and Variational Perspective

Diese Arbeit stellt theoretisch dar, dass generatives Drifting unter einem Gaußschen Kernel exakt Score Matching auf geglätteten Verteilungen entspricht, und liefert damit durch eine spektrale und variationale Analyse Erklärungen für die Stabilität des Trainings, die Wahl des Kernels sowie eine neue Bandbreiten-Annealing-Strategie zur Überwindung von Konvergenzengpässen.

Erkan Turan, Maks Ovsjanikov2026-03-11🤖 cs.LG

SignalMC-MED: A Multimodal Benchmark for Evaluating Biosignal Foundation Models on Single-Lead ECG and PPG

Die Studie stellt SignalMC-MED vor, ein multimodales Benchmark-Verfahren zur systematischen Evaluierung von Biosignal-Foundation-Modellen auf synchronisierten EKG- und PPG-Daten, das zeigt, dass domänenspezifische Modelle und multimodale Fusion die Vorhersageleistung verbessern, während längere Signalsegmente vorteilhafter sind als kürzere.

Fredrik K. Gustafsson, Xiao Gu, Mattia Carletti, Patitapaban Palo, David W. Eyre, David A. Clifton2026-03-11🤖 cs.LG

When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

Die Studie zeigt, dass der Overfitting-Underfitting-Indicator (OUI) bereits zu einem frühen Trainingszeitpunkt von 10 % als wirksames Signal dient, um in PPO-Actor-Critic-Systemen stabile Lernraten von instabilen zu unterscheiden und dadurch ineffiziente Hyperparametersuchen durch eine präzise Früherkennung zu vermeiden.

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí2026-03-11🤖 cs.AI

Towards a Neural Debugger for Python

Die Arbeit stellt „Neural Debuggers" vor, eine neue Klasse von Sprachmodellen, die traditionelle Debugger-Funktionen wie das Setzen von Haltepunkten und das schrittweise Durchlaufen von Code nachahmen, um sowohl die Vorwärts- als auch die Rückwärtsausführung von Python-Programmen zuverlässig zu modellieren und so die Grundlage für fortschrittlichere Agenten-basierte Codiersysteme zu legen.

Maximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve2026-03-11🤖 cs.AI

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Die Arbeit führt eine neue Familie von mittelnormalisierten Operator-Normen ein, um stabilen Lernraten-Transfer über verschiedene Netzwerkbreiten hinweg zu ermöglichen, und stellt den darauf basierenden Optimierer MOGA vor, der in großen Sprachmodellen mit Muon konkurrierbar ist und dabei schneller konvergiert.

Ruihan Xu, Jiajin Li, Yiping Lu2026-03-11🤖 cs.LG

← Zurück Weiter →