cs.LG Arbeiten | Gist.Science

Curse of Dimensionality in Neural Network Optimization

Diese Arbeit zeigt, dass der Fluch der Dimensionalität die Optimierung neuronaler Netze mit glatten Aktivierungsfunktionen fundamental einschränkt, indem sie nachweist, dass die Konvergenzrate des Populationsrisikos unter Gradientenfluss durch die Dimension des Eingaberaums und die Glattheit der Zielfunktion begrenzt wird.

Sanghoon Na, Haizhao Yang2026-03-06🔢 math

Generalization Bounds for Markov Algorithms through Entropy Flow Computations

Diese Arbeit erweitert die Anwendbarkeit von Entropiefluss-Methoden zur Herleitung von Generalisierungsschranken auf alle lernenden Algorithmen, deren iterative Dynamik durch einen zeit-homogenen Markov-Prozess beschrieben wird, indem sie eine exakte Entropiefluss-Formel und Verbindungen zu modifizierten logarithmischen Sobolev-Ungleichungen einführt.

Benjamin Dupuis, Maxime Haddouche, George Deligiannidis + 1 more2026-03-06💻 cs

Sink equilibria and the attractors of learning in games

Diese Arbeit widerlegt die Vermutung, dass die Attraktoren der Replikator-Dynamik in einer eindeutigen Beziehung zu den Sink-Gleichgewichten stehen, indem sie Gegenbeispiele mittels lokaler Quellen aufzeigt und stattdessen Pseudo-Konvexität als hinreichende Bedingung für diese Korrespondenz in Zwei-Spieler-Spielen einführt.

Oliver Biggar, Christos Papadimitriou2026-03-06💻 cs

FBFL: A Field-Based Coordination Approach for Data Heterogeneity in Federated Learning

Die Arbeit stellt FBFL vor, einen neuartigen, auf Feldkoordinierung basierenden Ansatz für das Federated Learning, der durch dezentrale, räumlich organisierte Hierarchien und personalisierte Leader-Election-Verfahren nicht nur die Herausforderungen nicht-identisch verteilter (non-IID) Daten effektiv löst, sondern auch die Skalierbarkeit und Ausfallsicherheit gegenüber zentralisierten Architekturen wie FedAvg, FedProx und Scaffold verbessert.

Davide Domini, Gianluca Aguzzi, Lukas Esterle + 1 more2026-03-06💻 cs

Double Momentum and Error Feedback for Clipping with Fast Rates and Differential Privacy

Die Autoren stellen Clip21-SGD2M vor, einen neuen Algorithmus für das Federated Learning, der durch eine innovative Kombination aus Clipping, Heavy-Ball-Momentum und Error Feedback sowohl optimale Konvergenzraten bei beliebiger Datenheterogenität als auch starke lokale Differentialprivatsphäre-Garantien ohne restriktive Annahmen erreicht.

Rustem Islamov, Samuel Horvath, Aurelien Lucchi + 2 more2026-03-06🔢 math

Generative Models in Decision Making: A Survey

Diese Arbeit stellt eine umfassende Übersicht über generative Modelle in der Entscheidungsfindung vor, die durch eine funktionale Taxonomie im Rahmen von „Control as Inference" vier zentrale Rollen definiert, kritische Risiken in Hochrisikodomänen analysiert und den Weg zu allgemeinen physischen Intelligenzen aufzeigt.

Xinyu Shao, Jianping Zhang, Haozhi Wang + 9 more2026-03-06💻 cs

BACE-RUL: A Bi-directional Adversarial Network with Covariate Encoding for Machine Remaining Useful Life Prediction

Dieser Beitrag stellt BACE-RUL vor, ein bi-direktionales adversariales Netzwerk mit Kovariatenkodierung, das den Restnutzungsdauer von Maschinen ausschließlich auf Basis aktueller Sensormessungen vorhersagt und dabei bestehende Methoden in Bezug auf Genauigkeit und Anwendbarkeit übertrifft.

Zekai Zhang, Dan Li, Shunyu Wu + 4 more2026-03-06💻 cs

Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

Die Arbeit zeigt, dass überwachtes Sicherheitstraining bei Vision-Language-Modellen durch irreführende oberflächliche Korrelationen anfällig für Umgehungsangriffe und übermäßige Zurückhaltung bleibt, und demonstriert, dass maschinelles Vergessen (Machine Unlearning) eine überlegene Alternative ist, um schädliches Wissen gezielt zu entfernen und gleichzeitig die Sicherheit sowie die Leistungsfähigkeit der Modelle zu verbessern.

Yiwei Chen, Yuguang Yao, Yihua Zhang + 3 more2026-03-06💻 cs

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

Diese Studie stellt ein neuartiges, skalierbares Evaluierungsframework vor, das zeigt, dass die Fähigkeit von Large Language Models zur Fehlerlokalisation durch semantisch erhaltende Mutationen stark beeinträchtigt wird, was auf eine übermäßige Abhängigkeit von syntaktischen Merkmalen anstelle eines tiefen semantischen Verständnisses hinweist.

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

ms-Mamba: Multi-scale Mamba for Time-Series Forecasting

Die Arbeit stellt ms-Mamba vor, eine neuartige Multi-Scale-Architektur auf Mamba-Basis, die durch die Verarbeitung von Zeitreihen auf mehreren zeitlichen Skalen den State-of-the-Art bei Prognoseaufgaben übertrifft und dabei effizienter ist als bestehende Transformer- und Mamba-Modelle.

Yusuf Meric Karadag, Ismail Talaz, Ipek Gursel Dino + 1 more2026-03-06💻 cs

TianQuan-S2S: A Subseasonal-to-Seasonal Global Weather Model via Incorporate Climatology State

Das Paper stellt TianQuan-S2S vor, ein globales Wettermodell für subseasonale bis saisonale Vorhersagen, das durch die Integration klimatologischer Zustände in die Patch-Embeddings und einen unsicherheitsaugmentierten Transformer die Überglättung bestehender datengetriebener Modelle überwindet und dabei die Leistungsfähigkeit etablierter numerischer sowie anderer KI-basierter Modelle in Schlüsselmetriken übertrifft.

Guowen Li, Xintong Liu, Yang Liu + 11 more2026-03-06💻 cs

Noise2Ghost: Self-supervised deep convolutional reconstruction for ghost imaging

Die Arbeit stellt Noise2Ghost vor, eine selbstüberwachte, tiefenlernbasierte Methode zur Rekonstruktion von Ghost-Imaging-Daten, die ohne saubere Referenzdaten auskommt und durch hervorragende Rauschunterdrückung besonders für rauschbehaftete Aufnahmen in Low-Light-Szenarien wie der Röntgenfluoreszenzanalyse geeignet ist.

Mathieu Manni, Dmitry Karpov, K. Joost Batenburg + 2 more2026-03-06🔬 physics

Differentially Private and Scalable Estimation of the Network Principal Component

Die Autoren stellen einen skalierbaren, differenziell privaten Algorithmus vor, der auf dem Propose-Test-Release-Framework basiert und durch die Ausnutzung instanzspezifischer Sensitivitäten eine hohe Genauigkeit bei der Schätzung des Netzwerkhauptkomponenten sowie eine 180-fache Laufzeitverbesserung gegenüber bestehenden Methoden ermöglicht.

Alireza Khayatian, Anil Vullikanti, Aritra Konar2026-03-06💻 cs

Variational Formulation of Particle Flow

Diese Arbeit stellt die Log-Homotopie-Teilchenströmung als zeitlich skalierten Fisher-Rao-Gradientenfluss im Rahmen der variationellen Inferenz dar, leitet daraus eine Gaußsche Approximation ab, die unter linearen Gaußschen Annahmen auf die exakte Daum-Huang-Strömung reduziert wird, und erweitert den Ansatz durch Gaußsche Mischungen für multimodale Verteilungen.

Yinzhuang Yi, Jorge Cortés, Nikolay Atanasov2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

Die Arbeit stellt ReactDance vor, ein Diffusionsframework, das durch die hierarchische Finite-Scalar-Quantisierung (HFSQ) für hochpräzise räumliche Kontrolle und die blockweise lokale Kontextstrategie (BLC) für kohärente lange Sequenzen hochwertige reaktive Tanzgeneration ermöglicht.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

Learning Virtual Machine Scheduling in Cloud Computing through Language Agents

Die Studie stellt MiCo vor, ein hierarchisches Framework auf Basis von Sprachagenten, das durch die Kombination von Option-Mining und -Komposition mittels Large Language Models eine robuste und generalisierbare Lösung für das komplexe Problem des dynamischen virtuellen Maschinen-Schedulings in Cloud-Umgebungen bietet.

JieHao Wu, Ziwei Wang, Junjie Sheng + 3 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Die Studie stellt mit „CausalPitfalls" ein umfassendes Benchmark vor, das die Fähigkeit von Large Language Models zur zuverlässigen kausalen Inferenz unter Berücksichtigung statistischer Fallstricke wie Simpson-Paradoxon und Selektionsverzerrung rigoros evaluiert und dabei erhebliche Defizite aktueller Modelle aufzeigt.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

Das Paper stellt ShIOEnv vor, eine Gymnasium-kompatible Bash-Umgebung, die durch grammatikbasierte Einschränkung der Argumentkonstruktion und ein selbstüberwachtes Irreduzibilitätssignal 2,1 Millionen Eingabe-Ausgabe-Paare generiert, um Modelle zur Vorhersage von CLI-Ausführungsverhalten präziser zu trainieren.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

Die Arbeit stellt VTool-R1 vor, ein Framework, das Vision-Language-Modelle durch Reinforcement Learning mit Python-basierten Bildbearbeitungswerkzeugen trainiert, um strategisch multimodale Denkprozesse zu generieren, die Text und visuelle Zwischenschritte kombinieren, um die reasoning-Fähigkeiten bei visuellen Fragestellungen zu verbessern.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

Attribute-Efficient PAC Learning of Sparse Halfspaces with Constant Malicious Noise Rate

Dieses Paper stellt einen attribut-effizienten PAC-Lernalgorithmus für sparse Halbräume unter konstantem bösartigem Rauschen vor, der durch eine neue Gradientenanalyse und einfache Modifikationen der Hinge-Loss-Minimierung unter Konzentrations- und Randbedingungen erreicht wird.

Shiwei Zeng, Jie Shen2026-03-06💻 cs

← Zurück Weiter →