A Bandit-Based Approach to Educational Recommender Systems: Contextual Thompson Sampling for Learner Skill Gain Optimization

Diese Studie stellt einen banditbasierten Ansatz vor, der mithilfe von Contextual Thompson Sampling personalisierte Übungsfolgen für Lernende generiert, um den Kompetenzzuwachs in digitalen Lernumgebungen zu optimieren und gleichzeitig skalierbare individuelle Förderung sowie gezielte Unterstützungsmaßnahmen für Lehrende zu ermöglichen.

Lukas De Kerpel, Arthur Thuy, Dries F. Benoit2026-03-12📊 stat

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Die Arbeit stellt Fine-grained Group Policy Optimization (FGO) vor, einen Reinforcement-Learning-Algorithmus, der als effiziente Weiterentwicklung von GRPO übermäßige Chain-of-Thought-Verläufe in großen Sprachmodellen komprimiert und dabei gleichzeitig die Probleme der ineffizienten Datennutzung sowie des Entropie-Kollapses löst, ohne die Leistungsfähigkeit zu beeinträchtigen.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Die Arbeit stellt GOT-JEPA vor, ein Framework zur Vorhersage von Tracking-Modellen mittels Joint-Embedding Predictive Architecture, das in Kombination mit dem OccuSolver-Modul die Generalisierungsfähigkeit und die Verarbeitungsleistung bei Verdeckungen in der generischen Objektverfolgung signifikant verbessert.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Das Paper stellt LexiSafe vor, ein theoretisch fundiertes Offline-Safe-Reinforcement-Learning-Framework, das durch eine lexikographische Hierarchie von Sicherheits- und Belohnungszielen sowie strukturelle Verzerrungen Sicherheitsverletzungen in cyber-physischen Systemen effektiv verhindert und gleichzeitig die Leistung verbessert.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

Diese Studie stellt neue Benchmarks für harte Zufallsprobleme aus der Sicht der statistischen Physik vor und zeigt durch einen fairen Vergleich, dass klassische Algorithmen Graph Neural Networks bei der Lösung komplexer Constraint Satisfaction Problems weiterhin überlegen sind.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Die Arbeit stellt CARE vor, ein evidenzbasiertes, agentisches Framework für die multimodale medizinische Reasoning, das durch die Dekomposition in spezialisierte Module und die Integration von pixelgenauen Bildsegmentierungen die klinische Verantwortlichkeit und Genauigkeit im Vergleich zu bestehenden Black-Box-Modellen signifikant verbessert.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Die Arbeit stellt CFG-Ctrl vor, ein Framework, das Classifier-Free Guidance als Kontrollmechanismus neu interpretiert, und führt mit SMC-CFG eine auf dem Sliding-Mode-Control-Prinzip basierende Methode ein, die durch nichtlineare Rückkopplung die Stabilität und semantische Ausrichtung von Diffusionsmodellen über einen weiten Bereich von Führungsparametern verbessert.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG