How Far Can Unsupervised RLVR Scale LLM Training?

Dit onderzoek analyseert de schaalbaarheid van ongesuperviseerd versterkend leren met verifieerbare beloningen (URLVR) en concludeert dat inheemse beloningsmethoden, hoewel nuttig voor testtijd-training, fundamenteel beperkt zijn door een 'vertrouwen-correctheid'-plafond dat leidt tot modelinstorting, terwijl externe beloningsmechanismen een veelbelovend alternatief bieden om deze grenzen te doorbreken.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Dit paper introduceert Impermanent, een live benchmark die tijdreeksvoorspellingsevaluatie verschuift van statische train-test splits naar een continue, open-wereld benadering om de temporele robustheid en generalisatie van foundation-modellen te testen op dynamische GitHub-activiteit.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Deze paper presenteert een interpreteerbaar kader voor het classificeren van foetale ultrasone beelden dat gebruikmaakt van medische concepten en een concept-gebaseerde GCN om de beslissingsprocessen van diepe neurale netwerken transparant en klinisch begrijpelijk te maken.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Expert-Aided Causal Discovery of Ancestral Graphs

Dit artikel introduceert Ancestral GFlowNet (AGFN), een nieuw algoritme dat causale ontdekking onder latent verstorende factoren combineert met zowel voorafgaande als onzekere expertkennis via een Bayesiaanse versterkende leerbenadering, waarbij bewezen wordt dat het convergeert naar het ware causale model.

Tiago da Silva, Bruna Bazaluk, Eliezer de Souza da Silva, António Góis, Salem Lahlou, Dominik Heider, Samuel Kaski, Diego Mesquita, Adèle Helena Ribeiro2026-03-09🤖 cs.LG