Reinforcement Learning for Power-Flow Network Analysis

Diese Arbeit demonstriert, wie Reinforcement Learning durch die Entwicklung einer probabilistischen Belohnungsfunktion und eines geeigneten Zustandsraums erfolgreich eingesetzt werden kann, um Netzwerkkonfigurationen für die Leistungsflussanalyse zu finden, die eine deutlich höhere Anzahl von Gleichgewichtspunkten aufweisen als mit herkömmlichen algebraischen Methoden oder einem Gaußschen Basismodell erreichbar wäre.

Alperen Ergur, Julia Lindberg, Vinny Miller2026-03-09🤖 cs.LG

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Diese Arbeit zeigt, dass das Training eines starken Modells auf den unvollkommenen Vorhersagen eines schwachen Lehrers mittels zufälliger Merkmals-Ridge-Regression die Skalierungsgesetze des Testfehlers signifikant verbessern kann, sodass der Schüler selbst dann optimale Raten erreicht, wenn der Lehrer keine Fehlerreduktion mit zunehmender Stichprobengröße aufweist.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco Mondelli2026-03-09🤖 cs.LG

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Diese Arbeit untersucht Parallelisierungsstrategien für die Bereitstellung dichter LLMs, indem sie zeigt, dass Tensor-Parallelismus die Latenz verbessert, während Pipeline-Parallelismus den Durchsatz optimiert, und wie deren hybride Kombination einen gezielten Kompromiss zwischen diesen beiden Leistungszielen ermöglicht.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan Kandemir2026-03-09🤖 cs.LG

Random Dot Product Graphs as Dynamical Systems: Limitations and Opportunities

Diese Arbeit untersucht die Lernbarkeit von Differentialgleichungen in zeitlichen Random Dot Product Graphs, identifiziert fundamentale geometrische und statistische Hindernisse wie Eichfreiheit und Realisierbarkeit, entwickelt einen Rahmen auf Basis von Hauptfaserbündeln zur Charakterisierung der Dynamik und zeigt, wie symmetrische Dynamiken die Eichambiguität auflösen können, während die endliche Stichprobengrenze eine offene Herausforderung bleibt.

Giulio Valentino Dalla Riva2026-03-09🤖 cs.LG

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Das Papier warnt davor, dass die rasche Einführung von KI in der Klimaforschung die globale Ungleichheit zwischen Nord und Süd verschärfen könnte, und fordert einen Paradigmenwechsel hin zu einer datenzentrierten Entwicklung, einer digitalen öffentlichen Klimainfrastruktur und einer gemeinsamen Wissensproduktion, um diese Disparitäten zu überwinden.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Unsupervised domain adaptation for radioisotope identification in gamma spectroscopy

Diese Studie zeigt, dass durch unsupervised domain adaptation (UDA) mit Minimierung der Maximum Mean Discrepancy (MMD) ein auf synthetischen Daten trainiertes Modell für die Radioisotopenidentifizierung in der Gammaspektroskopie erfolgreich an reale, ungelabelte Umgebungen angepasst werden kann, wodurch die Testgenauigkeit signifikant von 0,754 auf 0,904 gesteigert wird.

Peter Lalor, Ayush Panigrahy, Alex Hagen2026-03-09🤖 cs.LG

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

Die Arbeit stellt MIRACL vor, ein hierarchisches Meta-Multi-Objective-Reinforcement-Learning-Framework, das durch strukturierte Zerlegung von Aufgaben und eine Pareto-basierte Anpassungsstrategie eine effiziente Few-Shot-Verallgemeinerung für dynamische, mehrstufige kombinatorische Lieferkettenoptimierung ermöglicht und dabei die Leistung herkömmlicher MORL-Ansätze signifikant übertrifft.

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Der Artikel stellt Score-Guided Proximal Projection (SGPP) vor, ein einheitliches geometrisches Framework, das deterministische Optimierung und stochastisches Sampling verbindet, um Rectified Flow-Modelle für präzise Bildbearbeitung und Rekonstruktion zu steuern, indem es Inversions-basierte Methoden als Grenzfall umfasst und einen trainingsfreien Kompromiss zwischen Identitätserhaltung und generativer Freiheit ermöglicht.

Vansh Bansal, James G Scott2026-03-09🤖 cs.LG

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Diese Arbeit stellt die Disentangled Safety Hypothesis (DSH) vor, die Sicherheitsmechanismen in großen Sprachmodellen in zwei entkoppelte Unterräume – Erkennung und Ausführung – zerlegt, um durch gezielte Angriffe wie den „Refusal Erasure Attack" (REA) ein „Wissen ohne Handeln" zu erzeugen und so die Anfälligkeit aktueller Sicherheitsalignments aufzuzeigen.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Diese Arbeit stellt eine neuartige erste-Ordnung Softmax-gewichtete Switching-Gradienten-Methode für verteilte stochastische Minimax-Optimierung unter stochastischen Nebenbedingungen vor, die in einem Single-Loop-Primal-Only-Rahmen eine stabile Konvergenz ohne die üblichen Hyperparameter-Sensitivitäten erreicht und durch theoretische Garantien sowie Experimente zu Neyman-Pearson- und faire Klassifizierungsaufgaben validiert wird.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Diese Studie zeigt, dass herkömmliche, zeitunabhängige Leistungsmetriken in Multi-Agenten-Szenarien koordinierte Verhaltensmuster wie Turn-taking oft übersehen, und führt daher neue, zeitlich sensitive Alternationsmetriken ein, die offenbaren, dass selbst lernbasierte Strategien trotz hoher aggregierter Belohnungen signifikant schlechter koordinieren als zufällige Baselines.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG