Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

Diese Arbeit zeigt, dass exponentiell reward-gewichtetes SFT (Supervised Fine-Tuning) eine robustere, skalierbare und theoretisch fundierte Alternative zu RLHF für generative Empfehlungssysteme darstellt, da es Reward-Hacking vermeidet, keine Propensity-Scores benötigt und den Trade-off zwischen Robustheit und Verbesserung durch einen einzigen interpretierbaren Hyperparameter steuert.

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG

GSVD for Geometry-Grounded Dataset Comparison: An Alignment Angle Is All You Need

Diese Arbeit stellt eine neue Methode vor, die die verallgemeinerte Singulärwertzerlegung (GSVD) nutzt, um einen interpretierbaren „Winkel-Score" zu berechnen, der für jede einzelne Stichprobe quantifiziert, ob sie eher durch den einen oder den anderen Datensatz geometrisch erklärt wird.

Eduarda de Souza Marques, Arthur Sobrinho Ferreira da Rocha, Joao Paixao, Heudson Mirandola, Daniel Sadoc Menasche2026-03-12🤖 cs.LG

Quantum entanglement provides a competitive advantage in adversarial games

Die Studie zeigt, dass Quantenverschränkung in einem hybriden Quanten-Klassischen-Agenten für das Spiel Pong zu einer konsistenten Leistungssteigerung gegenüber separablen Quantenschaltungen und klassischen neuronalen Netzen führt, was die Verschränkung als wertvolle Ressource für das Repräsentationslernen in kompetitiven Reinforcement-Learning-Szenarien etabliert.

Peiyong Wang, Kieran Hymas, James Quach2026-03-12⚛️ quant-ph

Hybrid Self-evolving Structured Memory for GUI Agents

Die Arbeit stellt HyMEM vor, ein hybrides, selbstentwickelndes, graphbasiertes Gedächtnis, das diskrete symbolische Knoten mit kontinuierlichen Embeddings kombiniert, um GUI-Agenten durch strukturierte Mehrhop-Abfragen und dynamische Aktualisierungen zu verbessern und so Open-Source-Modelle mit 7B/8B-Parametern in die Lage zu versetzen, leistungsstarke geschlossene Modelle wie Gemini 2.5 Pro Vision und GPT-4o zu übertreffen.

Sibo Zhu, Wenyi Wu, Kun Zhou, Stephen Wang, Biwei Huang2026-03-12🤖 cs.AI

How to make the most of your masked language model for protein engineering

Die Autoren stellen eine flexible Stichprobenmethode mit stochastischer Beam-Suche für Masked Language Models vor, die durch systematische in silico- und in vitro-Evaluierungen im Bereich der Antikörper-Engineering zeigt, dass die Wahl der Sampling-Methode mindestens genauso entscheidend für den Erfolg ist wie die Wahl des Modells selbst.

Calvin McCarter, Nick Bhattacharya, Sebastian W. Ober, Hunter Elliott2026-03-12🧬 q-bio

Data-Driven Integration Kernels for Interpretable Nonlocal Operator Learning

Die vorgestellte Arbeit führt datengesteuerte Integrationskerne ein, die das Lernen nichtlokaler Operatoren durch die Trennung der nichtlokalen Informationsaggregation von der lokalen nichtlinearen Vorhersage strukturieren, wodurch die Interpretierbarkeit erhöht und die Anzahl der trainierbaren Parameter bei gleichbleibender Vorhersagegüte für den südasiatischen Monsun drastisch reduziert wird.

Savannah L. Ferretti, Jerry Lin, Sara Shamekh, Jane W. Baldwin, Michael S. Pritchard, Tom Beucler2026-03-12🤖 cs.LG

On The Complexity of Best-Arm Identification in Non-Stationary Linear Bandits

Die Arbeit untersucht das Problem der Identifizierung des besten Arms in nicht-stationären linearen Banditen mit festem Budget, indem sie eine arm-mengenabhängige untere Schranke für die Fehlerwahrscheinlichkeit herleitet und den zugehörigen Adjacent-BAI\textsf{Adjacent-BAI}-Algorithmus vorschlägt, der diese Schranke bis auf Konstanten erreicht.

Leo Maynard-Zhang, Zhihan Xiong, Kevin Jamieson, Maryam Fazel2026-03-12📊 stat

HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

Das Papier stellt HEAL vor, ein RL-freies Framework zur Wissensdistillation von großen zu kleineren Reasoning-Modellen, das durch die Kombination aus entropiegestützter Fehlerkorrektur, Unsicherheitsfilterung und einem progressiven Lehrplan die Grenzen traditioneller Rejektions-Sampling-Methoden überwindet.

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-12🤖 cs.AI

Causal Concept Graphs in LLM Latent Space for Stepwise Reasoning

Die Arbeit stellt Causal Concept Graphs (CCG) vor, eine Methode, die sparse Autoencoder mit differentiablem Struktur-Lernen kombiniert, um kausale Abhängigkeiten zwischen Konzepten im latenten Raum von Sprachmodellen zu identifizieren und nachzuweisen, dass graphenbasierte Interventionen die reasoning-Fähigkeiten signifikant effektiver verbessern als bestehende Ansätze.

Md Muntaqim Meherab, Noor Islam S. Mohammad, Faiza Feroz2026-03-12🤖 cs.LG