How Far Can Unsupervised RLVR Scale LLM Training?

Diese Arbeit analysiert umfassend das unüberwachte Reinforcement Learning mit verifizierbaren Belohnungen (URLVR), zeigt auf, dass intrinsische Belohnungsmethoden aufgrund einer theoretisch bedingten Konvergenz zur Verschärfung der anfänglichen Modellverteilung zwangsläufig in einem „Rise-and-Fall"-Muster mit anschließendem Zusammenbruch enden, und schlägt externe Belohnungsmechanismen als vielversprechende Alternative zur Überwindung dieser Skalierungsgrenzen vor.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

Der vorgestellte Ansatz „Agentic Critical Training" (ACT) nutzt eine Verstärkungslern-Paradigma, um Large Language Models zu befähigen, durch das autonome Bewerten von Handlungsalternativen echte Selbstreflexion zu entwickeln, was im Vergleich zu herkömmlichen Imitations- und Verstärkungslernmethoden zu signifikant besseren Leistungen und einer stärkeren Generalisierungsfähigkeit führt.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Das Paper stellt Impermanent vor, ein dynamisches Live-Benchmark-System für Zeitreihenvorhersagen, das die Bewertung von Modellen von statischen Test-Splits auf eine kontinuierliche, sequenzielle Leistungsmessung unter realen zeitlichen Veränderungen umstellt, um die wahre zeitliche Generalisierungsfähigkeit zu erfassen.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Diese Arbeit stellt einen interpretierbaren Framework vor, der auf medizinischen Konzepten und einer konzeptbasierten Graph-Convolutional-Neural-Network (GCN) Architektur basiert, um die Entscheidungsfindung bei der Erkennung von Standard-Ebenen in fetalen Ultraschallbildern für Kliniker transparent und nachvollziehbar zu machen.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Expert-Aided Causal Discovery of Ancestral Graphs

Diese Arbeit stellt Ancestral GFlowNet (AGFN) vor, einen neuartigen Reinforcement-Learning-Algorithmus, der die kausale Entdeckung unter latenten Störgrößen ermöglicht, indem er sowohl vorab eingebrachtes als auch unsicheres nachträgliches Expertenwissen integriert und dabei durch eine bayessche Modellierung des Feedbacks zur wahren kausalen Struktur konvergiert.

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena Ribeiro2026-03-09🤖 cs.LG

A unified framework for learning with nonlinear model classes from arbitrary linear samples

Dieses Paper stellt ein einheitliches Rahmenwerk vor, das das Lernen unbekannter Objekte aus beliebigen linearen Messungen mittels nichtlinearer Modellklassen ermöglicht und durch die Einführung des Konzepts der „Variation" sowie Entropie-Integrale neue, nahezu optimale Generalisierungsgrenzen herleitet, die bestehende Ergebnisse in Bereichen wie Compressed Sensing und Matrix-Sketching vereinen und erweitern.

Ben Adcock, Juan M. Cardenas, Nick Dexter2026-03-09🤖 cs.LG

BInD: Bond and Interaction-generating Diffusion Model for Multi-objective Structure-based Drug Design

Das Paper stellt BInD vor, einen diffusionsbasierten Generierungsmodellansatz für das strukturabhängige Wirkstoffdesign, der durch wissensbasierte Führung Moleküle und ihre Wechselwirkungen mit Zielproteinen gemeinsam erzeugt, um eine ausgewogene Optimierung mehrerer Ziele wie Bindungsspezifität, Moleküleigenschaften und lokale Geometrie zu erreichen.

Joongwon Lee, Wonho Zhung, Jisu Seo, Woo Youn Kim2026-03-09🤖 cs.LG

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Diese Arbeit stellt eine neuartige zweistufige Pipeline für die automatische Spracherkennung vor, die unüberwachtes Clustering von X-Vektoren mit einem auf Monte-Carlo-Dropout basierenden bayesschen Batch-Active-Learning kombiniert, um durch strategische Stichprobenauswahl den Labelaufwand zu minimieren und die Modellleistung zu optimieren.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess