Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

Dit paper introduceert In-Context RLVR, een methode die de kwaliteit van redeneringen binnen grote taalmodellen verbetert door in-Context Learning te gebruiken om beloningen automatisch te herwegen op basis van de bewijskracht van de oplossing, waardoor hoogwaardige redeneertraces meer gewicht krijgen dan die welke slechts per ongeluk tot het juiste antwoord leiden.

Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang2026-03-11🤖 cs.LG

GAST: Gradient-aligned Sparse Tuning of Large Language Models with Data-layer Selection

Dit paper introduceert GAST, een innovatieve methode voor parameter-efficiënt fine-tuning van grote taalmodellen die door middel van een geünificeerde optimalisatiestrategie gelijktijdig de meest effectieve data-punten selecteert voor specifieke modellagen, waardoor redundantie wordt verminderd en de prestaties ten opzichte van bestaande methoden worden verbeterd.

Kai Yao, Zhenghan Song, Kaixin Wu, Mingjie Zhong, Danzhao Cheng, Zhaorui Tan, Yixin Ji, Penglei Gao2026-03-11🤖 cs.LG

SignalMC-MED: A Multimodal Benchmark for Evaluating Biosignal Foundation Models on Single-Lead ECG and PPG

Dit paper introduceert SignalMC-MED, een multimodaal benchmark voor het evalueren van biosignaal-fundamentmodellen op gesynchroniseerde ECG- en PPG-gegevens, waarbij wordt vastgesteld dat domeinspecifieke modellen en multimodale fusie superieure prestaties leveren voor diverse klinische taken.

Fredrik K. Gustafsson, Xiao Gu, Mattia Carletti, Patitapaban Palo, David W. Eyre, David A. Clifton2026-03-11🤖 cs.LG

When Learning Rates Go Wrong: Early Structural Signals in PPO Actor-Critic

Dit artikel introduceert de Overfitting-Underfitting Indicator (OUI) als een efficiënt, vroeg signaal dat op basis van neuronale activatiepatronen al na 10% van de training succesvolle leerstappen in PPO-actor-critic modellen kan onderscheiden van instabiele of suboptimale configuraties.

Alberto Fernández-Hernández, Cristian Pérez-Corral, Jose I. Mestre, Manuel F. Dolz, Jose Duato, Enrique S. Quintana-Ortí2026-03-11🤖 cs.AI

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Dit paper introduceert een nieuwe familie van gemiddeld genormaliseerde operatornormen en de MOGA-optimizer om breedte-onafhankelijke stabiliteit en effectieve hyperparameter-overdracht te garanderen voor neurale netwerken, waarbij het de stabiliteit van Muon verbetert en snellere prestaties bereikt in grote-token en laag-verlies regimes.

Ruihan Xu, Jiajin Li, Yiping Lu2026-03-11🤖 cs.LG

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Dit paper introduceert Bag-of-Words Superposition (BOWS) om aan te tonen dat in realistische scenario's met gecorreleerde features, superpositie constructieve interferentie kan genereren die semantische clusters en cyclische structuren vormt, in plaats van dat interferentie uitsluitend als ruis moet worden gefilterd zoals in het standaardbeeld van superpositie wordt aangenomen.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. Mediano2026-03-11🤖 cs.AI

Accounting for shared covariates in semi-parametric Bayesian additive regression trees

De auteurs stellen een nieuwe semi-parametrische BART-methode voor die covariaten in zowel het lineaire als het niet-parametrische component toelaat door de boomgeneratiebewegingen aan te passen, waardoor vertekening en niet-identificeerbaarheid worden opgelost en complexe interacties kunnen worden gemodelleerd, wat wordt gevalideerd via simulaties en toepassingen op onderwijsdata.

Estevão B. Prado, Andrew C. Parnell, Keefe Murphy + 3 more2026-03-10🤖 cs.LG