Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Diese Arbeit analysiert theoretisch die Vor- und Nachteile von Reinforcement Learning für die Planung in Sprachmodellen und zeigt, dass Exploration entscheidend für die Generalisierung ist, während Policy Gradient zu einem Diversitätsverlust führt, wohingegen Q-Learning durch Off-Policy-Lernen und Diversitätserhaltung Vorteile bietet, sofern die Belohnungsfunktion sorgfältig gestaltet wird.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Diese Arbeit schließt die Lücke zwischen Versprechen und Leistung bei der FP4-Quantisierung, indem sie den neu entwickelten MR-GPTQ-Algorithmus mit spezialisierten GPU-Kernen einführt, der durch Block-Hadamard-Transformationen und formatoptimierte Techniken auf NVIDIA-B200- und RTX5090-Hardware eine bis zu 4-fache End-to-End-Beschleunigung bei gleichzeitiger Erhaltung oder Steigerung der Genauigkeit ermöglicht.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev + 8 more2026-03-04🤖 cs.LG

Entering the Era of Discrete Diffusion Models: A Benchmark for Schrödinger Bridges and Entropic Optimal Transport

Diese Arbeit stellt das erste Benchmark für die Bewertung von Schrödinger-Brücken auf diskreten Räumen vor, indem sie analytisch lösbare Verteilungspaare bereitstellt, und leitet daraus neue Algorithmen sowie eine umfassende Evaluierung bestehender und neu entwickelter Solver in hochdimensionalen diskreten Settings ab.

Xavier Aramayo Carrasco, Grigoriy Ksenofontov, Aleksei Leonov + 2 more2026-03-04🤖 cs.LG

Lightweight Transformer for EEG Classification via Balanced Signed Graph Algorithm Unrolling

Die vorgestellte Arbeit entwickelt einen leichten und interpretierbaren Transformer-ähnlichen Klassifikator für EEG-Signale, der durch das Entfalten eines spektralen Denoising-Algorithmus auf balancierten Vorzeichen-Graphen Epilepsiepatienten von gesunden Probanden mit vergleichbarer Genauigkeit wie tiefe neuronale Netze, jedoch bei deutlich geringerem Parametervolumen, unterscheidet.

Junyi Yao, Parham Eftekhar, Gene Cheung + 3 more2026-03-04🤖 cs.LG

AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks

Das Paper stellt AdaBet vor, eine gradientenfreie Methode zur effizienten Auswahl wichtiger Schichten für das On-Device-Training tiefer neuronaler Netze durch Analyse topologischer Aktivierungseigenschaften mittels Betti-Zahlen, die ohne Labels oder Rückwärtspropagierung auskommt und dabei Speicherbedarf senkt sowie die Genauigkeit steigert.

Irene Tenison, Soumyajit Chatterjee, Fahim Kawsar + 1 more2026-03-04🤖 cs.LG

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Die Arbeit stellt LaDiR vor, ein neues Reasoning-Framework, das die Ausdruckskraft kontinuierlicher latenter Räume mit den iterativen Verfeinerungsfähigkeiten latenter Diffusionsmodelle kombiniert, um die Genauigkeit, Vielfalt und Interpretierbarkeit von Schlussfolgerungen in großen Sprachmodellen über die Grenzen der autoregressiven Generierung hinaus zu verbessern.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Post-hoc Stochastic Concept Bottleneck Models

Dieses Paper stellt Post-hoc Stochastic Concept Bottleneck Models (PSCBMs) vor, eine effiziente Methode, die vortrainierte CBMs durch das Hinzufügen eines kleinen Kovarianz-Vorhersagemoduls erweitert, um ohne Nachtraining des Hauptmodells sowohl die Genauigkeit als auch die Robustheit gegenüber Interventionen durch die Modellierung von Konzeptabhängigkeiten zu verbessern.

Wiktor Jan Hoffmann, Sonia Laguna, Moritz Vandenhirtz + 2 more2026-03-04🤖 cs.LG

Characterizing the Multiclass Learnability of Forgiving 0-1 Loss Functions

Diese Arbeit charakterisiert die Multiklassen-Lernbarkeit von vergebenden 0-1-Verlustfunktionen durch die Einführung einer neuen kombinatorischen Dimension, der verallgemeinerten Natarajan-Dimension, deren Endlichkeit eine notwendige und hinreichende Bedingung für die Lernbarkeit darstellt und zudem andere Lernsettings wie Set-valued Feedback und modifiziertes Listenlernen umfasst.

Jacob Trauger, Tyson Trauger, Ambuj Tewari2026-03-04📊 stat

Physically Valid Biomolecular Interaction Modeling with Gauss-Seidel Projection

Die vorgestellte Arbeit führt einen differentierbaren Gauss-Seidel-Projektionsmodul ein, der während des Trainings und der Inferenz physikalische Gültigkeit erzwingt und dadurch ein 2-Schritt-Diffusionsmodell ermöglicht, das in Bezug auf strukturelle Genauigkeit mit 200-Schritt-Baselines gleichzieht, dabei jedoch zehnmal schneller ist und sterische Kollisionen garantiert vermeidet.

Siyuan Chen, Minghao Guo, Caoliwen Wang + 6 more2026-03-04🧬 q-bio

Efficient Resource-Constrained Training of Transformers via Subspace Optimization

Die vorgestellte Arbeit führt die Weight-Activation Subspace Iteration (WASI) ein, eine Methode, die durch das Training von Transformer-Modellen in einem festgelegten Unterraum den Speicherbedarf um das 62-fache und die Rechenkosten um das 2-fache reduziert, wodurch effizientes On-Device-Learning auf ressourcenbeschränkten Geräten wie dem Raspberry Pi 5 ermöglicht wird.

Le-Trung Nguyen, Enzo Tartaglione, Van-Tam Nguyen2026-03-04🤖 cs.LG

Secure Sparse Matrix Multiplications and their Applications to Privacy-Preserving Machine Learning

Diese Arbeit stellt optimierte MPC-Algorithmen für die Multiplikation von geheimgeteilten dünnbesetzten Matrizen vor, die Speicher- und Kommunikationskosten im Vergleich zu dichten Verfahren drastisch senken und so datenschutzkonformes maschinelles Lernen für Anwendungen mit hochdimensionalen dünnbesetzten Daten wie Empfehlungssystemen oder Genomik ermöglichen.

Marc Damie, Florian Hahn, Andreas Peter + 1 more2026-03-04🤖 cs.LG