ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Dit paper introduceert ARLArena, een gestructureerd raamwerk voor het analyseren van trainingsstabiliteit in agentic reinforcement learning, en presenteert SAMPO, een nieuwe methode die instabiliteit aanpakt en robuuste prestaties garandeert voor LLM-gebaseerde agenten.

Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang2026-03-10💻 cs

Vibe Researching as Wolf Coming: Can AI Agents with Skills Replace or Augment Social Scientists?

Dit artikel introduceert het concept 'vibe researching' en analyseert hoe AI-agenten met gespecialiseerde vaardigheden, zoals de scholar-skill-plugin, sociale wetenschappers kunnen versterken door repetitieve taken te automatiseren, terwijl ze beperkt blijven in theoretische originaliteit en tacite kennis, wat leidt tot nieuwe professionele uitdagingen en pedagogische crises.

Yongjun Zhang2026-03-10💻 cs

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Dit paper beschrijft hoe het gebruik van een gespecialiseerd, fijngefineerd LLM om schaalbare tekstuele relevantielabels te genereren, de App Store-rangschikking verbetert door zowel gedrags- als tekstuele relevantie te optimaliseren, wat resulteert in een statistisch significant toename van de conversie, vooral voor zeldzame zoekopdrachten.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

Deze paper introduceert een reproduceerbaar kader voor het evalueren van het redeneervermogen van multimodale modellen op ECG-signalen door het redeneren te ontleden in perceptie en deductie, waarbij respectievelijk code-generatie en een klinische criteria-database worden gebruikt voor schaalbare en semantisch accurate verificatie.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Extended Empirical Validation of the Explainability Solution Space

Dit technische rapport bevestigt de generaliseerbaarheid van het Explainability Solution Space (ESS)-kader door middel van een uitgebreide cross-domein validatie die de oorspronkelijke toepassing op personeelsverloop uitbreidt naar een heterogeen intelligent stedelijk hulpbronnensysteem, waarbij wordt aangetoond dat ESS-rangschikkingen systematisch aanpassen aan governance-rollen en stakeholderconfiguraties in plaats van domeinspecifiek te zijn.

Antoni Mestre, Manoli Albert, Miriam Gil, Vicente Pelechano2026-03-10💻 cs

HarmonyCell: Automating Single-Cell Perturbation Modeling under Semantic and Distribution Shifts

HarmonyCell is een end-to-end agentframework dat single-cell perturbatiestudies automatiseert door semantische heterogeniteit op te lossen met een door LLM-aangedreven semantic unifier en statistische heterogeniteit aan te pakken met een adaptieve Monte Carlo Tree Search-engine, waardoor schaalbaar virtueel celmodelleren mogelijk wordt zonder dataset-specifieke engineering.

Wenxuan Huang, Mingyu Tsoi, Yanhao Huang, Xinjie Mao, Xue Xia, Hao Wu, Jiaqi Wei, Yuejin Yang, Lang Yu, Cheng Tan, Xiang Zhang, Zhangyang Gao, Siqi Sun2026-03-10💻 cs