Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Dit paper introduceert Reference-guided Policy Optimization (RePO), een nieuwe methode die de zwaktes van bestaande technieken oplost door het combineren van verifieerbare beloningen voor exploratie en referentiesturing voor exploitatie, waardoor Large Language Models effectiever kunnen worden getraind voor moleculaire optimalisatie zonder stap-voor-stap trainingsdata.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Dit artikel introduceert een geïntegreerd kader dat een node-transformerarchitectuur combineert met BERT-gebaseerde sentimentanalyse om de aandelenmarkt als een graaf te modelleren, wat resulteert in een significante verbetering van de voorspellingsnauwkeurigheid en richtingsefficiëntie voor S&P 500-aandelen ten opzichte van traditionele methoden.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Dit artikel presenteert een interpreteerbaar model dat psychologische theorieën combineert met taaldata van sociale media om dynamische mentale gezondheid te voorspellen door individuele eigenschappen en situationele context te integreren, waarbij theoriegedreven kenmerken concurrerende prestaties leveren met een hogere begrijpelijkheid dan pure taalembeddings.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence

Dit paper introduceert Omni-Masked Gradient Descent (OMGD), een geheugenefficiënte optimalisatiemethode voor het trainen van grote taalmodellen die niet alleen naadloos integreert met bestaande optimalisatoren, maar ook wiskundig bewezen een verbeterde convergentiecomplexiteit van O~(ϵ3)\tilde{\mathcal{O}}(\epsilon^{-3}) biedt in niet-convexe settings.

Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng2026-03-09🤖 cs.LG

TADPO: Reinforcement Learning Goes Off-road

Dit paper introduceert TADPO, een nieuwe versterkingsleerbenadering die PPO uitbreidt met off-policy trajecten voor begeleiding en on-policy trajecten voor exploratie, waarmee voor het eerst een op visie gebaseerd RL-systeem succesvol is ingezet voor hoogwaardig off-road rijden op een volledig schaalvoertuig via zero-shot sim-naar-real-overdracht.

Zhouchonghao Wu, Raymond Song, Vedant Mundheda, Luis E. Navarro-Serment, Christof Schoenborn, Jeff Schneider2026-03-09🤖 cs.AI

Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

Deze paper toont aan dat het schalen van PPO naar meer dan één miljoen parallelle omgevingen, in combinatie met een zorgvuldige aanpassing van de hyperparameters, het probleem van leerstagnatie door slechte schattingen van de loss-functie oplost en monotoon prestatieverbetering mogelijk maakt tot een biljoen transities.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle2026-03-09🤖 cs.LG