Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Deze paper introduceert het Disentangled Safety Hypothesis (DSH), dat aantoont dat veiligheidsmechanismen in grote taalmodellen bestaan uit gescheiden 'herkennings-' en 'uitvoeringsassen', en gebruikt deze inzichten om een nieuwe aanvalsmethode te ontwikkelen die weigeringen effectief kan uitschakelen zonder de kennis van het model te beïnvloeden.

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen2026-03-09🤖 cs.AI

First-Order Softmax Weighted Switching Gradient Method for Distributed Stochastic Minimax Optimization with Stochastic Constraints

Dit paper introduceert een nieuwe eerste-orde Softmax-gewichtsschakelgradientmethode voor gedistribueerde stochastische minimax-optimalisatie met stochastische beperkingen, die een stabiele single-loop oplossing biedt voor federated learning met bewezen convergentie en verbeterde prestaties op taken zoals Neyman-Pearson-classificatie.

Zhankun Luo, Antesh Upadhyay, Sang Bin Moon, Abolfazl Hashemi2026-03-09🤖 cs.LG

The Coordination Gap: Alternation Metrics for Temporal Dynamics in Multi-Agent Battle of the Exes

Deze paper introduceert nieuwe, tijdsgevoelige alternatiemetrics om de beperkingen van traditionele, tijdsblinde maatstaven aan te tonen bij het evalueren van multi-agent coördinatie, waarbij blijkt dat agenten met hoge traditionele scores in feite slechter presteren dan willekeurige baselines in termen van daadwerkelijke coördinatiekwaliteit.

Nikolaos Al. Papadopoulos, Konstantinos Psannis2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder is een nieuw reinforcement learning-framework dat grote taalmodellen leert om code autonoom te genereren, te reflecteren op fouten en zichzelf te corrigeren zonder externe hulp, wat leidt tot state-of-the-art prestaties en een aanzienlijke vermindering van de inferentie-overhead.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning

Dit paper introduceert Reference-guided Policy Optimization (RePO), een nieuwe methode die de zwaktes van bestaande technieken oplost door het combineren van verifieerbare beloningen voor exploratie en referentiesturing voor exploitatie, waardoor Large Language Models effectiever kunnen worden getraind voor moleculaire optimalisatie zonder stap-voor-stap trainingsdata.

Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han2026-03-09🤖 cs.AI

Stock Market Prediction Using Node Transformer Architecture Integrated with BERT Sentiment Analysis

Dit artikel introduceert een geïntegreerd kader dat een node-transformerarchitectuur combineert met BERT-gebaseerde sentimentanalyse om de aandelenmarkt als een graaf te modelleren, wat resulteert in een significante verbetering van de voorspellingsnauwkeurigheid en richtingsefficiëntie voor S&P 500-aandelen ten opzichte van traditionele methoden.

Mohammad Al Ridhawi, Mahtab Haj Ali, Hussein Al Osman2026-03-09🤖 cs.AI