On-Policy Self-Distillation for Reasoning Compression

Die Arbeit stellt OPSDC vor, eine Methode zur on-policy Selbst-Distillation, die Reasoning-Modelle durch Minimierung der Reverse-KL-Divergenz gegenüber ihren eigenen, durch den Befehl „sei prägnant" gesteuerten Ausgaben dazu anleitet, ihre Denkprozesse automatisch zu komprimieren, wodurch bei gleichzeitiger Verbesserung der Genauigkeit auf Benchmarks wie MATH-500 und AIME 2024 bis zu 59 % der Token eingespart werden.

Hejian Sang, Yuanda Xu, Zhengze Zhou + 3 more2026-03-06🤖 cs.LG

Kraus Constrained Sequence Learning For Quantum Trajectories from Continuous Measurement

Die Studie stellt einen physikalisch konsistenten Ansatz zur Echtzeit-Rekonstruktion quantenmechanischer Zustände aus kontinuierlichen Messdaten vor, der durch eine Kraus-Strukturierte Ausgabeschicht in Kombination mit verschiedenen Sequenzmodellen (insbesondere Kraus-LSTM) die Genauigkeit verbessert und gleichzeitig die Einhaltung physikalischer Gesetze wie Positivität und Spur-Erhaltung garantiert.

Priyanshi Singh, Krishna Bhatia2026-03-06🤖 cs.LG

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

Der Artikel stellt GeoTop vor, ein mathematisch fundiertes Framework, das Topologische Datenanalyse und Lipschitz-Killing-Krümmungen vereint, um die Unterscheidung zwischen gutartigen und bösartigen Strukturen in der diagnostischen Bildgebung durch die Kombination topologischer Invarianz mit geometrischer Sensitivität zu verbessern und dabei sowohl die Genauigkeit als auch die Interpretierbarkeit zu steigern.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Sample-Optimal Locally Private Hypothesis Selection and the Provable Benefits of Interactivity

Diese Arbeit stellt einen optimalen, interaktiven Algorithmus für die Hypothesenauswahl unter lokaler Differentialprivatsphäre vor, der die bisherige Probenkomplexität von Ω(klogk)\Omega(k \log k) auf Θ(k)\Theta(k) senkt und dabei zeigt, dass bereits wenige Interaktionsrunden ausreichen, um die Grenzen nicht-interaktiver Verfahren zu durchbrechen.

Alireza F. Pour, Hassan Ashtiani, Shahab Asoodeh2026-03-05🤖 cs.LG

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Diese Arbeit analysiert bestehende Belohnungsfunktionen für das Reinforcement Learning im autonomen Fahren, identifiziert deren Mängel hinsichtlich Standardisierung und Kontextsensitivität und schlägt zukünftige Forschungsansätze vor, um diese Defizite durch strukturierte, konfliktlösende und validierbare Belohnungsmechanismen zu überwinden.

Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner2026-03-05🤖 cs.AI