SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker is een nieuwe GRPO-gebaseerde methode die de redeneerlengte van grote taalmodellen dynamisch kalibreert om overbodige tekst te verminderen zonder de nauwkeurigheid te schaden, wat resulteert in aanzienlijke verkorting van de output en verbeterde prestaties op complexe taken.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

In dit paper wordt GCGNet voorgesteld, een graf-consistente generatieve netwerkarchitectuur die door middel van variatiegeneratie, grafstructuur-afstemming en grafverfijning robuuste en nauwkeurige tijdreeksvoorspellingen met exogene variabelen mogelijk maakt door zowel temporale als kanaalcorrelaties gezamenlijk te modelleren.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Dit paper introduceert CDRRM, een nieuw framework dat gebruikmaakt van een contrast-gebaseerde aanpak om interpreteerbare en betrouwbare rubrieken te genereren voor beloningsmodellen, waardoor de afhankelijkheid van dure expertannotaties wordt verminderd en de prestaties op diverse benchmarks worden verbeterd met slechts een beperkt aantal trainingsvoorbeelden.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Dit artikel introduceert SFed-LoRA, een framework dat de instabiliteit van LoRA in federatief leren door clientgrootte en rang veroorzaakt, corrigeert door een optimale schalingsfactor af te leiden die de aggregatiefout minimaliseert en zo stabielere en snellere convergentie mogelijk maakt zonder de modelarchitectuur te wijzigen.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Dit paper introduceert Deterministic Differentiable Pruning (DDP), een methode die stochastische elementen uit de gestructureerde pruning van grote taalmodellen verwijdert door een deterministische zachte surrogate te optimaliseren, wat leidt tot snellere convergentie, minder discrepantie tussen training en test, en betere prestaties bij hoge sparsiteit.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

Deze studie introduceert Tau-BNO, een snel en nauwkeurig neuronaal operator-surrogaatmodel dat de computationele barrières van het Network Transport Model voor tau-transport overbrugt door microscopische reactiekinetiek en anisotrope netwerkvervoer te simuleren, waardoor parameterinferentie en mechanistisch onderzoek in Alzheimer-onderzoek aanzienlijk worden versneld.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Dit paper introduceert ROMI, een nieuwe methode voor model-based offline versterkend leren die de instabiliteit en overmatige conservatisme van RAMBO oplost door robuuste waarde-bewuste modelleertechnieken en impliciet differentieerbare adaptieve weging te combineren voor betere prestaties op uitdagingrijke datasets.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Dit paper introduceert TRIAGE, een lichtgewicht framework dat onzekerheid in robotmanipulatie en adaptieve perceptie ontleedt in aleatorische en epistemische componenten om gerichte correcties te triggeren, wat leidt tot aanzienlijke verbeteringen in taaksucces en rekenefficiëntie.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG