cs.LG Arbeiten | Gist.Science

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Die Autoren stellen mit dem Two-Bridge Map Suite eine neue Open-Source-Benchmark für StarCraft II vor, die als intermediäre Testumgebung zwischen dem Vollspiel und Minispielen dient, indem sie ökonomische Mechaniken ausschaltet, um Reinforcement-Learning-Forschung unter realistischeren Rechenbudgets zu ermöglichen.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Diese Arbeit stellt ein Verfahren vor, das den Conditional Randomization Test mit dem Tabular-Foundation-Modell TabPFN kombiniert, um auch bei nichtlinearen und korrelierten Daten finite-stichproben-gültige p-Werte für die Relevanz einzelner Merkmale zu liefern, ohne dass ein erneutes Modelltraining oder parametrische Annahmen erforderlich sind.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Das Paper stellt CapTrack vor, ein rahmenbasiertes Evaluierungssystem, das Vergessen in nachtrainierten LLMs nicht nur als Wissensverlust, sondern als systematische Verhaltensdrift definiert und in einer groß angelegten Studie zeigt, dass insbesondere Instruction Fine-Tuning zu erheblichen Einbußen bei Robustheit und Standardverhalten führt, während Präferenzoptimierung konservativer wirkt.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Die Studie stellt DeepScope vor, ein auf Deep Learning basiertes System, das mikroskopische Bilder von nicht inkubierten Wasserproben analysiert, um Fäkalverunreinigungen in Sekunden mit einer Genauigkeit von 93 % und extrem niedrigen Kosten nachzuweisen und damit herkömmliche, zeitaufwändige Testverfahren zu ersetzen.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Die Studie zeigt, dass sich die Wahrheitstreue von Sprachmodellen in nicht verifizierbaren Domänen durch Abstimmungsmethoden oder die Skalierung der Inferenz nicht verbessern lässt, da die Fehler der Modelle stark korreliert sind und Aggregation stattdessen gemeinsame Missverständnisse verstärkt.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Die Arbeit stellt OptiRoulette vor, einen stochastischen Meta-Optimierer, der durch dynamische Auswahl von Update-Regeln aus einem Pool und speziellen Anpassungsmechanismen die Konvergenzgeschwindigkeit und -zuverlässigkeit im Vergleich zu AdamW auf mehreren Bilddatensätzen signifikant verbessert.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Diese Arbeit schlägt eine einheitliche Darstellung von Diffusionsmodellen und Flow Matching vor und zeigt theoretisch auf, dass die oft schwache Korrelation zwischen verrauschten Daten und dem vorhergesagten Ziel den Lernprozess beeinträchtigen kann.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Die Arbeit stellt einen Annealed Co-Generation-Rahmen vor, der durch die Verwendung von paarweisen Diffusionsmodellen und einem dreistufigen Temperierungsprozess eine effiziente und konsistente multivariate Co-Generierung für wissenschaftliche Anwendungen ermöglicht, ohne die Komplexität einer gemeinsamen Hochdimensionalmodellierung zu erfordern.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Die Arbeit stellt RACER vor, einen risikobewussten, kalibrierten und effizienten Router für große Sprachmodelle, der durch die Formulierung des Routing-Problems als $\alpha$ -VOR-Problem und die Ausgabe aggregierbarer Modellsätze eine verteilungsunabhängige Risikokontrolle bei gleichzeitiger Verbesserung der Genauigkeit gewährleistet.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Die Arbeit stellt Evo vor, ein neuartiges Sprachmodell, das autoregressive und diffusionsbasierte Generierung in einem kontinuierlichen evolutionären Rahmen vereint, um durch adaptive Balance zwischen beiden Paradigmen sowohl hohe Generierungsqualität als auch schnelle Inferenz zu erreichen.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Die Autoren stellen einen neuartigen, topologiebewussten Rahmen vor, der durch Kontext-Representation-Learning, Wissensdistillation und einen Graph-Tokeniser für Multiplex-Biologische Netzwerke eine robuste Zero-Shot-Vorhersage von Interaktionen zwischen bisher unbekannten biologischen Entitäten ermöglicht.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Die Arbeit stellt NAT (Not All Tokens Are Needed) vor, ein effizientes Reinforcement-Learning-Framework, das durch das Subsampling und die Neugewichtung von Token-Updates den Rechenaufwand und den Speicherverbrauch bei langen Chain-of-Thought-Trajektorien erheblich reduziert, ohne die Lernleistung zu beeinträchtigen.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Das Paper stellt GraphSkill vor, ein hierarchisches Retrieval-Augmented-Coding-Framework mit einem selbst-debuggenden Agenten, das durch die Ausnutzung der Dokumentenhierarchie und die Generierung von Testfällen die Genauigkeit und Kosteneffizienz bei komplexen Graphen-Reasoning-Aufgaben verbessert.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang Wang2026-03-10🤖 cs.LG

Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models

Die Studie zeigt, dass aktuelle Prozess-Reward-Modelle (PRMs) anfällig für adversarialen Angriff sind, da sie eher Sprachflüssigkeit als logische Korrektheit bewerten, und stellt mit PRM-BiasBench ein Diagnose-Toolkit vor, um diese Schwachstellen vor dem Einsatz zu identifizieren.

Rishabh Tiwari, Aditya Tomar, Udbhav Bamba, Monishwaran Maheswaran, Heng Yang, Michael W. Mahoney, Kurt Keutzer, Amir Gholami2026-03-10🤖 cs.LG

From ARIMA to Attention: Power Load Forecasting Using Temporal Deep Learning

Diese Studie zeigt, dass ein Transformer-Modell mit Selbst-Aufmerksamkeitsmechanismen bei der Vorhersage des kurzfristigen Stromlastverbrauchs auf Basis von PJM-Daten ARIMA, LSTM und BiLSTM in Bezug auf Genauigkeit und Robustheit übertrifft.

Suhasnadh Reddy Veluru, Sai Teja Erukude, Viswa Chaitanya Marella2026-03-10🤖 cs.LG

Advances in GRPO for Generation Models: A Survey

Diese Arbeit bietet einen umfassenden Überblick über Flow-GRPO, eine Erweiterung der gruppenbasierten Policy-Optimierung für Flow-Matching-Modelle, und analysiert sowohl methodische Weiterentwicklungen als auch deren Anwendung in verschiedenen generativen Domänen wie Bild-, Video- und Sprachsynthese.

Zexiang Liu, Xianglong He, Yangguang Li2026-03-10🤖 cs.LG

Exploration Space Theory: Formal Foundations for Prerequisite-Aware Location-Based Recommendation

Die Arbeit stellt die Exploration Space Theory (EST) vor, ein formales Gittertheorie-Framework für ortsbezogene Empfehlungssysteme, das Abhängigkeiten zwischen Sehenswürdigkeiten modelliert und durch die Exploration Space Recommender System (ESRS) strukturell garantierte, valide nächste Schritte sowie effiziente Pfadgenerierung ermöglicht.

Madjid Sadallah2026-03-10🤖 cs.LG

Pavement Missing Condition Data Imputation through Collective Learning-Based Graph Neural Networks

Diese Studie stellt ein auf kollektivem Lernen basierendes Graph-Neuronales-Netzwerk-Modell vor, das die Abhängigkeiten zwischen benachbarten Straßenabschnitten nutzt, um fehlende Daten zur Straßenzustandsbewertung präzise zu ergänzen und so die Verzerrungen durch unvollständige Inspektionsdaten zu minimieren.

Ke Yu, Lu Gao2026-03-10🤖 cs.LG

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

Die Arbeit stellt Grouter vor, eine Methode zur Entkopplung des Routings von der Repräsentation durch die Verwendung vorab trainierter Strukturpriors, die das MoE-Training beschleunigt, die Konvergenz stabilisiert und die Datennutzung sowie den Durchsatz signifikant verbessert.

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan2026-03-10🤖 cs.LG

T-REX: Transformer-Based Category Sequence Generation for Grocery Basket Recommendation

Die Arbeit stellt T-REX vor, eine Transformer-Architektur, die durch innovative Techniken wie dynamische Sequenzaufteilung und kausale Maskierung personalisierte Kategorien für die nächste Einkaufsliste im Online-Lebensmittelhandel vorhersagt und dabei bestehende Systeme signifikant verbessert.

Soroush Mokhtari, Muhammad Tayyab Asif, Sergiy Zubatiy2026-03-10🤖 cs.LG

← Zurück Weiter →