BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Dit artikel introduceert BioAgent Bench, een evaluatiesuite en dataset voor het meten van de prestaties en robuustheid van AI-agenten in bio-informatica-taken, waarbij wordt geconcludeerd dat hoewel geavanceerde modellen complexe workflows succesvol kunnen uitvoeren, ze kwetsbaar zijn voor verstoringen en dat open-weight modellen in privacygevoelige situaties de voorkeur verdienen boven gesloten systemen.

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

Dit paper introduceert R2M, een nieuw lichtgewicht RLHF-framework dat reward-overoptimalisatie aanpakt door real-time gebruik te maken van de evoluerende verborgen toestanden van het beleidsmodel in plaats van uitsluitend te vertrouwen op oppervlakkige semantische informatie.

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

Deze studie toont aan dat het gebruik van LLM-gebaseerde nieuwsgevoelensanalyse, met name met het DeBERTa-model of een ensemble van drie modellen, de nauwkeurigheid van de voorspelling van aandelenkoersbewegingen significant kan verbeteren.

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Dit artikel introduceert Green-VLA, een gefaseerd Vision-Language-Action-framework dat via een uitgebreid curriculum en een schaalbaar dataverwerkingsproces een universeel beleid ontwikkelt voor diverse robotlichamen, waarbij veiligheid en prestaties op lange termijn worden verbeterd door RL-uitlijning en geavanceerde inferentie-mechanismen.

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

Dit artikel introduceert het SIM-VAIL-auditkader om te tonen dat AI-chatbots bij mentale gezondheidszorg vaak systematisch falen door kwetsbaarheidsversterkende interactielussen (VAILs), waarbij schadelijk gedrag geleidelijk ontstaat en afhankelijk is van de specifieke psychische kwetsbaarheid van de gebruiker.

Veith Weilnhammer, Kevin YC Hou, Lennart Luettgau, Christopher Summerfield, Raymond Dolan, Matthew M Nour2026-03-10💻 cs

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Dit paper introduceert AgenticLab, een model-onafhankelijk platform en benchmark voor robotagenten die de prestaties van vision-language-modellen in ongestructureerde, echte omgevingen evalueert en zo blootlegt dat offline tests tekortschieten in het vaststellen van fouten bij langdurige, gesloten-lus manipulatie.

Pengyuan Guo, Zhonghao Mai, Zhengtong Xu, Kaidi Zhang, Heng Zhang, Zichen Miao, Arash Ajoudani, Zachary Kingston, Qiang Qiu, Yu She2026-03-10💻 cs

Six Times to Spare: Characterizing GPU-Accelerated 5G LDPC Decoding for Edge-RSU Communications

Dit artikel toont aan dat het uitbesteden van 5G LDPC-decodering naar GPU's op compacte randplatforms de doorvoersnelheid aanzienlijk verhoogt en de CPU-belasting verlaagt, waardoor de strenge timing-eisen voor ultra-reliabele lage-latentie voertuigcommunicatie (URLLC) beter haalbaar worden.

Ryan Barker, Julia Boone, Tolunay Seyfi, Alireza Ebrahimi Dorcheh, Fatemeh Afghah, Joseph Boccuzzi2026-03-10💻 cs

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Deze studie toont aan dat er geen significante convergentie bestaat tussen zelfgerapporteerde en gedragsmatige probleemoplossingsvaardigheden, wat suggereert dat game-based assessments en zelfrapportage metingen elkaar aanvullen in plaats van elkaar vervangen bij de selectie van personeel.

Fabrizio Fornari, Eleonora Cova, Niccolò Vito Vacca, Francesco Bocci, Marcello Sarini, Luigi Caputo2026-03-10💻 cs

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Deze paper introduceert een principieel raamwerk voor conditionele diffusiemodellen onder harde constraints, gebaseerd op Doob's h-transformatie en martingaaltheorie, dat twee nieuwe off-policy leeralgoritmes biedt om de driftcorrectie te schatten zonder het vooraf getrainde score-netwerk aan te passen, terwijl niet-asymptotische garanties worden geleverd voor de kwaliteit van de gegenereerde steekproeven.

Zhengyi Guo, Wenpin Tang, Renyuan Xu2026-03-10💻 cs

LLM4PQC - Accurate and Efficient Synthesis of PQC Cores by Feedback-Driven LLMs

Dit paper introduceert LLM4PQC, een feedback-gedreven framework dat grote taalmodellen gebruikt om PQC-referentiecode automatisch te refactoren naar synthesiseerbare HLS-code en te verifiëren via een hiërarchie van checks, waardoor de handmatige inspanning voor het ontwerpen van complexe post-kwantumcryptografie-hardware wordt verminderd.

Buddhi Perera, Zeng Wang, Weihua Xiao, Mohammed Nabeel, Ozgur Sinanoglu, Johann Knechtel, Ramesh Karri2026-03-10💻 cs