cs.LG Arbeiten | Gist.Science

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Die Arbeit stellt Implicit Error Counting (IEC) vor, eine Referenz-freie Reinforcement-Learning-Methode, die durch die Zählung und Gewichtung von Fehlern anstelle der Verwendung von Rubriken effektiv Post-Training für virtuelle Anproben optimiert, wo ideale Referenzantworten nicht verfügbar sind.

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane2026-03-09🤖 cs.AI

The Value of Graph-based Encoding in NBA Salary Prediction

Diese Studie zeigt, dass die Integration von Graph-Embeddings, die aus On- und Off-Court-Daten abgeleitet werden, die Genauigkeit von Gehaltsvorhersagen für NBA-Spieler im Vergleich zu reinen tabellarischen Modellen signifikant verbessert, insbesondere bei Veteranen und Spielern mit hohen Gehältern.

Junhao Su, David Grimsman, Christopher Archibald2026-03-09🤖 cs.LG

Reinforcement Learning for Power-Flow Network Analysis

Diese Arbeit demonstriert, wie Reinforcement Learning durch die Entwicklung einer probabilistischen Belohnungsfunktion und eines geeigneten Zustandsraums erfolgreich eingesetzt werden kann, um Netzwerkkonfigurationen für die Leistungsflussanalyse zu finden, die eine deutlich höhere Anzahl von Gleichgewichtspunkten aufweisen als mit herkömmlichen algebraischen Methoden oder einem Gaußschen Basismodell erreichbar wäre.

Alperen Ergur, Julia Lindberg, Vinny Miller2026-03-09🤖 cs.LG

Improved Scaling Laws via Weak-to-Strong Generalization in Random Feature Ridge Regression

Diese Arbeit zeigt, dass das Training eines starken Modells auf den unvollkommenen Vorhersagen eines schwachen Lehrers mittels zufälliger Merkmals-Ridge-Regression die Skalierungsgesetze des Testfehlers signifikant verbessern kann, sodass der Schüler selbst dann optimale Raten erreicht, wenn der Lehrer keine Fehlerreduktion mit zunehmender Stichprobengröße aufweist.

Diyuan Wu, Lehan Chen, Theodor Misiakiewicz, Marco Mondelli2026-03-09🤖 cs.LG

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Diese Arbeit untersucht Parallelisierungsstrategien für die Bereitstellung dichter LLMs, indem sie zeigt, dass Tensor-Parallelismus die Latenz verbessert, während Pipeline-Parallelismus den Durchsatz optimiert, und wie deren hybride Kombination einen gezielten Kompromiss zwischen diesen beiden Leistungszielen ermöglicht.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan Kandemir2026-03-09🤖 cs.LG

Warm Starting State-Space Models with Automata Learning

Diese Arbeit beweist die exakte Realisierbarkeit von Moore-Maschinen als Zustandsraummodelle und zeigt, dass eine Warm-Start-Initialisierung dieser Modelle mit symbolisch gelernten Automaten zu einer deutlich schnelleren Konvergenz und höheren Genauigkeit führt als eine zufällige Initialisierung.

William Fishell, Sam Nicholas Kouteili, Mark Santolucito2026-03-09🤖 cs.LG

Random Dot Product Graphs as Dynamical Systems: Limitations and Opportunities

Diese Arbeit untersucht die Lernbarkeit von Differentialgleichungen in zeitlichen Random Dot Product Graphs, identifiziert fundamentale geometrische und statistische Hindernisse wie Eichfreiheit und Realisierbarkeit, entwickelt einen Rahmen auf Basis von Hauptfaserbündeln zur Charakterisierung der Dynamik und zeigt, wie symmetrische Dynamiken die Eichambiguität auflösen können, während die endliche Stichprobengrenze eine offene Herausforderung bleibt.

Giulio Valentino Dalla Riva2026-03-09🤖 cs.LG

The Rise of AI in Weather and Climate Information and its Impact on Global Inequality

Das Papier warnt davor, dass die rasche Einführung von KI in der Klimaforschung die globale Ungleichheit zwischen Nord und Süd verschärfen könnte, und fordert einen Paradigmenwechsel hin zu einer datenzentrierten Entwicklung, einer digitalen öffentlichen Klimainfrastruktur und einer gemeinsamen Wissensproduktion, um diese Disparitäten zu überwinden.

Amirpasha Mozaffari, Amanda Duarte, Lina Teckentrup, Stefano Materia, Gina E. C. Charnley, Lluis Palma, Eulalia Baulenas Serra, Dragana Bojovic, Paula Checchia, Aude Carreric, Francisco Doblas-Reyes2026-03-09🤖 cs.AI

Unsupervised domain adaptation for radioisotope identification in gamma spectroscopy

Diese Studie zeigt, dass durch unsupervised domain adaptation (UDA) mit Minimierung der Maximum Mean Discrepancy (MMD) ein auf synthetischen Daten trainiertes Modell für die Radioisotopenidentifizierung in der Gammaspektroskopie erfolgreich an reale, ungelabelte Umgebungen angepasst werden kann, wodurch die Testgenauigkeit signifikant von 0,754 auf 0,904 gesteigert wird.

Peter Lalor, Ayush Panigrahy, Alex Hagen2026-03-09🤖 cs.LG

Revisiting the (Sub)Optimality of Best-of-N for Inference-Time Alignment

Diese Arbeit zeigt, dass Best-of-N-Sampling unter praxisnahen Annahmen bezüglich der Win-Rate statistisch und rechnerisch optimal ist, und schlägt eine einfache Variante vor, die Reward-Hacking eliminiert, ohne die Leistung zu beeinträchtigen.

Ved Sriraman, Adam Block2026-03-09🤖 cs.AI

Full Dynamic Range Sky-Modelling For Image Based Lighting

Die Arbeit stellt Icarus vor, ein voll dynamisches Bereich-Sky-Modell, das mittels Deep Learning fotorealistische, wetterunabhängige Umgebungskarten mit präziser Sonnenausleuchtung und Wolkensteuerung für das Image-Based Lighting generiert und dabei die Limitationen bestehender neuronaler Modelle überwindet.

Ian J. Maquignaz2026-03-09🤖 cs.LG

MIRACL: A Diverse Meta-Reinforcement Learning for Multi-Objective Multi-Echelon Combinatorial Supply Chain Optimisation

Die Arbeit stellt MIRACL vor, ein hierarchisches Meta-Multi-Objective-Reinforcement-Learning-Framework, das durch strukturierte Zerlegung von Aufgaben und eine Pareto-basierte Anpassungsstrategie eine effiziente Few-Shot-Verallgemeinerung für dynamische, mehrstufige kombinatorische Lieferkettenoptimierung ermöglicht und dabei die Leistung herkömmlicher MORL-Ansätze signifikant übertrifft.

Rifny Rachman, Josh Tingey, Richard Allmendinger, Wei Pan, Pradyumn Shukla, Bahrul Ilmi Nasution2026-03-09🤖 cs.LG

Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing

Der Artikel stellt Score-Guided Proximal Projection (SGPP) vor, ein einheitliches geometrisches Framework, das deterministische Optimierung und stochastisches Sampling verbindet, um Rectified Flow-Modelle für präzise Bildbearbeitung und Rekonstruktion zu steuern, indem es Inversions-basierte Methoden als Grenzfall umfasst und einen trainingsfreien Kompromiss zwischen Identitätserhaltung und generativer Freiheit ermöglicht.

Vansh Bansal, James G Scott2026-03-09🤖 cs.LG

TML-Bench: Benchmark for Data Science Agents on Tabular ML Tasks

Die Studie stellt TML-Bench vor, einen Benchmark zur Evaluierung autonomer Data-Science-Agenten auf Tabular-Machine-Learning-Aufgaben, der zeigt, dass das MiniMax-M2.1-Modell über vier Kaggle-Wettbewerbe hinweg die beste Gesamtleistung erzielt und die Erfolgsquote mit längeren Zeitbudgets steigt.

Mykola Pinchuk2026-03-09🤖 cs.AI

Bridging Domains through Subspace-Aware Model Merging

Die Arbeit stellt SCORE vor, eine Methode zur Subraum-Konfliktlösung, die durch die Projektion von Task-Matrizen auf eine gemeinsame orthogonale Basis die Generalisierungsfähigkeit von fusionierten Modellen auf unbekannte Domänen verbessert.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Diese Arbeit stellt die Disentangled Safety Hypothesis (DSH) vor, die Sicherheitsmechanismen in großen Sprachmodellen in zwei entkoppelte Unterräume – Erkennung und Ausführung – zerlegt, um durch gezielte Angriffe wie den „Refusal Erasure Attack" (REA) ein „Wissen ohne Handeln" zu erzeugen und so die Anfälligkeit aktueller Sicherheitsalignments aufzuzeigen.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Diese Arbeit stellt eine neuartige erste-Ordnung Softmax-gewichtete Switching-Gradienten-Methode für verteilte stochastische Minimax-Optimierung unter stochastischen Nebenbedingungen vor, die in einem Single-Loop-Primal-Only-Rahmen eine stabile Konvergenz ohne die üblichen Hyperparameter-Sensitivitäten erreicht und durch theoretische Garantien sowie Experimente zu Neyman-Pearson- und faire Klassifizierungsaufgaben validiert wird.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Diese Studie zeigt, dass herkömmliche, zeitunabhängige Leistungsmetriken in Multi-Agenten-Szenarien koordinierte Verhaltensmuster wie Turn-taking oft übersehen, und führt daher neue, zeitlich sensitive Alternationsmetriken ein, die offenbaren, dass selbst lernbasierte Strategien trotz hoher aggregierter Belohnungen signifikant schlechter koordinieren als zufällige Baselines.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG

Sparse Crosscoders for diffing MoEs and Dense models

Die Studie nutzt Crosscoders, um zu zeigen, dass Mixture-of-Experts-Modelle im Vergleich zu dichten Modellen weniger einzigartige Merkmale lernen und spezialisierte, fokussierte Repräsentationen entwickeln, während dichte Modelle breitere, allgemeineren Merkmale verwenden.

Marmik Chaudhari, Nishkal Hundia, Idhant Gulati2026-03-09🤖 cs.LG

MoE Lens -- An Expert Is All You Need

Die Studie zeigt, dass Mixture-of-Experts-Modelle wie DeepSeekMoE eine stark konzentrierte Expertise aufweisen, bei der nur wenige spezialisierte Experten den Großteil der Vorhersagen übernehmen, was gezielte Pruning-Strategien zur Optimierung von Inferenz und Speicherbedarf bei gleichbleibender Leistung ermöglicht.

Marmik Chaudhari, Idhant Gulati, Nishkal Hundia, Pranav Karra, Shivam Raval2026-03-09🤖 cs.LG

← Zurück Weiter →