cs.LG Arbeiten | Gist.Science

Ensembling Language Models with Sequential Monte Carlo

Diese Arbeit stellt ein einheitliches Framework vor, das mithilfe eines byte-level Sequential-Monte-Carlo-Algorithmus mehrere Sprachmodelle zu $f$ -Ensembles kombiniert, um Verzerrungen bei der Stichprobenziehung zu vermeiden und die Leistung bei strukturierten Textgenerierungsaufgaben zu verbessern.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

On-Policy Self-Distillation for Reasoning Compression

Die Arbeit stellt OPSDC vor, eine Methode zur on-policy Selbst-Distillation, die Reasoning-Modelle durch Minimierung der Reverse-KL-Divergenz gegenüber ihren eigenen, durch den Befehl „sei prägnant" gesteuerten Ausgaben dazu anleitet, ihre Denkprozesse automatisch zu komprimieren, wodurch bei gleichzeitiger Verbesserung der Genauigkeit auf Benchmarks wie MATH-500 und AIME 2024 bis zu 59 % der Token eingespart werden.

Hejian Sang, Yuanda Xu, Zhengze Zhou + 3 more2026-03-06🤖 cs.LG

Latent Wasserstein Adversarial Imitation Learning

Die Arbeit stellt Latent Wasserstein Adversarial Imitation Learning (LWAIL) vor, ein neuartiges Framework, das durch die Nutzung eines dynamikbewussten latenten Raums und des Wasserstein-Abstands erfolgreich Expertenniveau erreicht, indem es lediglich ein oder wenige Demonstrationsbeispiele ohne Aktionsdaten benötigt.

Siqi Yang, Kai Yan, Alexander G. Schwing + 1 more2026-03-06🤖 cs.LG

Kraus Constrained Sequence Learning For Quantum Trajectories from Continuous Measurement

Die Studie stellt einen physikalisch konsistenten Ansatz zur Echtzeit-Rekonstruktion quantenmechanischer Zustände aus kontinuierlichen Messdaten vor, der durch eine Kraus-Strukturierte Ausgabeschicht in Kombination mit verschiedenen Sequenzmodellen (insbesondere Kraus-LSTM) die Genauigkeit verbessert und gleichzeitig die Einhaltung physikalischer Gesetze wie Positivität und Spur-Erhaltung garantiert.

Priyanshi Singh, Krishna Bhatia2026-03-06🤖 cs.LG

Thermodynamic Response Functions in Singular Bayesian Models

Die Arbeit stellt ein einheitliches thermodynamisches Rahmenwerk vor, das durch Posterior-Temperierung induzierte Antwortfunktionen nutzt, um die komplexe Geometrie singulärer statistischer Modelle zu interpretieren und Konzepte wie den realen logarithmischen kanonischen Schwellenwert sowie WAIC und WBIC als thermodynamische Größen zu vereinen.

Sean Plummer2026-03-06🔢 math

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Die Arbeit stellt SurvHTE-Bench vor, das erste umfassende Benchmark für die Schätzung heterogener Behandlungseffekte in der Überlebensanalyse, das synthetische, semi-synthetische und reale Datensätze nutzt, um verschiedene Methoden unter realistischen Bedingungen rigoros zu vergleichen.

Shahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss + 1 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Die Studie zeigt, dass Aktivierungsproben die interne Gewissheit von Reasoning-Modellen bereits frühzeitig erkennen können, bevor diese ihre Schlussfolgerungen offenbaren, und ermöglicht so eine effiziente Reduzierung der Token-Ausgabe durch adaptive Berechnung, während echte Unsicherheit und „Reasoning Theater" unterschieden werden.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Diese Studie nutzt zensierte chinesische Open-Weight-LLMs als Testumgebung, um Techniken zur Förderung von Ehrlichkeit und zur Erkennung von Lügen zu evaluieren, wobei sich zwar einige Methoden als wirksam erweisen, keine jedoch falsche Antworten vollständig eliminieren kann.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

Cheap Thrills: Effective Amortized Optimization Using Inexpensive Labels

Die vorgestellte Arbeit schlägt einen dreistufigen Rahmen vor, der kostengünstige, ungenaue Labels mit überwachtem Vortraining und selbstüberwachtem Feintuning kombiniert, um Optimierungsmodelle effizient zu trainieren und dabei die Gesamtkosten um bis zu 59-fach zu senken sowie Genauigkeit und Konvergenz zu verbessern.

Khai Nguyen, Petros Ellinas, Anvita Bhagavathula + 1 more2026-03-06🔢 math

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Der Artikel stellt POET-X vor, eine speichereffiziente und skalierbare Variante des POET-Frameworks, die durch optimierte orthogonale Transformationen die Stabilität beim Training großer Sprachmodelle beibehält und deren Vorverarbeitung auf einer einzigen GPU ermöglicht, wo herkömmliche Optimierer wie AdamW an Speicherproblemen scheitern.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

RoboPocket: Improve Robot Policies Instantly with Your Phone

RoboPocket ist ein mobiles System, das mithilfe von Augmented Reality und asynchronem Online-Finetuning Robotik-Policies ohne physischen Roboter sofort verbessert, indem es Sammler in die Lage versetzt, gezielt kritische Zustände zu erfassen und so die Dateneffizienz im Vergleich zu Offline-Strategien zu verdoppeln.

Junjie Fang, Wendi Chen, Han Xue + 7 more2026-03-06🤖 cs.AI

Recurrent Action Transformer with Memory

Das Paper stellt den Recurrent Action Transformer with Memory (RATE) vor, eine neuartige Transformer-Architektur für Offline-Reinforcement-Learning, die durch einen rekurrenten Speichermechanismus die Leistung in teilweise beobachtbaren Umgebungen mit langen Abhängigkeiten erheblich verbessert und gleichzeitig auf Standard-Benchmarks wettbewerbsfähig bleibt.

Egor Cherepanov, Alexey Staroverov, Alexey K. Kovalev + 1 more2026-03-05🤖 cs.AI

Crystal-GFN: sampling crystals with desirable properties and constraints

Das Paper stellt Crystal-GFN vor, ein generatives Modell auf Basis von GFlowNets, das durch die sequenzielle Generierung von Kristallstrukturen unter Berücksichtigung physikalischer und geometrischer Randbedingungen effizient neue Materialien mit gewünschten Eigenschaften wie niedriger Bildungsenthalpie und spezifischer Bandlücke entdeckt.

Mila AI4Science, :, Alex Hernandez-Garcia + 11 more2026-03-05🤖 cs.LG

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

Der Artikel stellt GeoTop vor, ein mathematisch fundiertes Framework, das Topologische Datenanalyse und Lipschitz-Killing-Krümmungen vereint, um die Unterscheidung zwischen gutartigen und bösartigen Strukturen in der diagnostischen Bildgebung durch die Kombination topologischer Invarianz mit geometrischer Sensitivität zu verbessern und dabei sowohl die Genauigkeit als auch die Interpretierbarkeit zu steigern.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Sample-Optimal Locally Private Hypothesis Selection and the Provable Benefits of Interactivity

Diese Arbeit stellt einen optimalen, interaktiven Algorithmus für die Hypothesenauswahl unter lokaler Differentialprivatsphäre vor, der die bisherige Probenkomplexität von $\Omega(k \log k)$ auf $\Theta(k)$ senkt und dabei zeigt, dass bereits wenige Interaktionsrunden ausreichen, um die Grenzen nicht-interaktiver Verfahren zu durchbrechen.

Alireza F. Pour, Hassan Ashtiani, Shahab Asoodeh2026-03-05🤖 cs.LG

Graph Neural Networks in EEG-based Emotion Recognition: A Survey

Diese Übersichtsarbeit bietet einen einheitlichen Rahmen und klare Leitlinien für den Einsatz von Graph Neural Networks in der EEG-basierten Emotionserkennung, indem sie bestehende Methoden kategorisiert, physiologische Besonderheiten hervorhebt und zukünftige Herausforderungen wie zeitliche vollständig verbundene Graphen diskutiert.

Chenyu Liu, Yuqiu Deng, Yihao Wu + 10 more2026-03-05🤖 cs.LG

List Sample Compression and Uniform Convergence

Diese Arbeit untersucht die Anwendbarkeit klassischer Lernprinzipien im Kontext des List-PAC-Lernens und zeigt, dass zwar die gleichmäßige Konvergenz weiterhin mit der Lernbarkeit äquivalent ist, die Vermutung der Stichprobenkompression jedoch widerlegt wird, da bestimmte lernbare Klassen nicht komprimiert werden können.

Steve Hanneke, Shay Moran, Tom Waknine2026-03-05🤖 cs.LG

Agnostic Tomography of Stabilizer Product States

Die Autoren stellen einen effizienten Algorithmus für die agnostische Tomografie von Stabilisator-Produktzuständen vor, der es ermöglicht, einen beliebigen Quantenzustand so gut zu approximieren wie der beste Zustand innerhalb dieser Klasse, und dies in polynomieller Zeit für konstante Fidelity-Schwellenwerte erreicht.

Sabee Grewal, Vishnu Iyer, William Kretschmer + 1 more2026-03-05⚛️ quant-ph

A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Diese Arbeit analysiert bestehende Belohnungsfunktionen für das Reinforcement Learning im autonomen Fahren, identifiziert deren Mängel hinsichtlich Standardisierung und Kontextsensitivität und schlägt zukünftige Forschungsansätze vor, um diese Defizite durch strukturierte, konfliktlösende und validierbare Belohnungsmechanismen zu überwinden.

Ahmed Abouelazm, Jonas Michel, J. Marius Zoellner2026-03-05🤖 cs.AI

Tracking solutions of time-varying variational inequalities

Diese Arbeit erweitert bestehende Ergebnisse zur Verfolgung von Lösungen zeitvariabler Variationsungleichungen, indem sie Schranken für nicht-monotone Funktionen und periodische Probleme ohne sublineare Lösungspfade liefert, das Konvergenzverhalten diskreter dynamischer Systeme untersucht und sowohl chaotisches Verhalten als auch Konvergenz nachweist.

Hédi Hadiji, Sarah Sachs, Cristóbal Guzmán2026-03-05🤖 cs.LG

← Zurück Weiter →