Mind the Sim2Real Gap in User Simulation for Agentic Tasks

Deze studie toont aan dat LLM-gebaseerde gebruikerssimulaties voor agentieke taken significant afwijken van menselijk gedrag door te kooperatief en uniform te zijn, wat leidt tot een overschatting van prestaties en de noodzaak benadrukt om dergelijke simulaties te valideren met echte mensen.

Xuhui Zhou, Weiwei Sun, Qianou Ma, Yiqing Xie, Jiarui Liu, Weihua Du, Sean Welleck, Yiming Yang, Graham Neubig, Sherry Tongshuang Wu, Maarten Sap2026-03-13🤖 cs.AI

Artificial Intelligence for Sentiment Analysis of Persian Poetry

Dit onderzoek toont aan dat moderne AI-modellen, met name GPT-4o, effectief kunnen worden ingezet voor sentimentanalyse van Perzische poëzie, waarbij bleek dat Rumi's gedichten over het algemeen gelukkiger zijn en een grotere variatie aan gevoelens uitdrukken via hun metrum dan die van Parvin E'tesami.

Arash Zargar, Abolfazl Moshiri, Mitra Shafaei, Shabnam Rahimi-Golkhandan, Mohamad Tavakoli-Targhi, Farzad Khalvati2026-03-13💬 cs.CL

The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

Dit paper introduceert een dynamisch framework dat de kwetsbaarheid van bestaande methoden voor het 'vergeten' van informatie in grote taalmodellen blootlegt door complexe, meervoudige redeneringsvragen te gebruiken, waardoor het de illusie van effectiviteit in huidige evaluaties doorbreekt en inzicht biedt in de onderliggende neurale mechanismen.

Raj Sanjay Shah, Jing Huang, Keerthiram Murugesan, Nathalie Baracaldo, Diyi Yang2026-03-13🤖 cs.AI

COMPASS: The explainable agentic framework for Sovereignty, Sustainability, Compliance, and Ethics

Dit paper introduceert het COMPASS-framework, een uitlegbare multi-agent architectuur die digitale soevereiniteit, duurzaamheid, naleving en ethiek integreert in de besluitvorming van autonome systemen via modulaire governance en Retrieval-Augmented Generation.

Jean-Sébastien, Dessureault, Alain-Thierry, Iliho Manzi, Soukaina, Alaoui Ismaili, Khadim, Lo, Mireille, Lalancette, Éric, Bélanger2026-03-13🤖 cs.AI

Counterweights and Complementarities: The Convergence of AI and Blockchain Powering a Decentralized Future

Dit artikel betoogt dat blockchain en kunstmatige intelligentie elkaars tegenkrachten zijn die door hun complementariteit een decentrale toekomst kunnen vormgeven, waarbij blockchain de centraliserende risico's van AI beperkt en AI op zijn beurt de efficiëntie van blockchain verhoogt, wat leidt tot het concept van 'gedecentraliseerde intelligentie'.

Yibai Li (Emily), Zhiye Jin (Emily), Xiaobing (Emily), Li (Nancy), K. D. Joshi (Nancy), Xuefei (Nancy), Deng2026-03-13🤖 cs.AI

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

Dit paper introduceert Hindsight-Anchored Policy Optimization (HAPO), een methode die synthetische succesinjectie en Thompson-sampling-gating combineert om de bias en variantieproblemen van bestaande RL-methoden in settings met schaarse beloningen op te lossen en zo een zelfgestuurd curriculum mogelijk te maken dat de modelprestaties laat overstijgen van statische leerkrachten.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Dit paper toont aan dat adversariale prompt-injectie de succeskans van jailbreaks bij grote taalmodellen kan laten evolueren van een trage polynoom-groei naar een snelle exponentiële groei, een overgang die theoretisch wordt verklaard door een spin-glasmodel waarbij lange injecties een sterk magnetisch veld simuleren dat een geordende fase induceert.

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan2026-03-13🤖 cs.LG

LLM-Augmented Digital Twin for Policy Evaluation in Short-Video Platforms

Dit paper introduceert een door grote taalmodellen (LLM's) verrijkte digitale tweeling met een modulaire vier-componentenarchitectuur om beleidsmaatregelen op kortvideo-platforms, inclusief AI-gestuurde interventies, te evalueren via schaalbare, reproduceerbare simulaties die de complexe feedbacklussen van deze ecosystemen nabootsen.

Haoting Zhang (Max), Yunduan Lin (Max), Jinghai He (Max), Denglin Jiang (Max), Zuo-Jun (Max), Shen, Zeyu Zheng2026-03-13🤖 cs.AI

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Dit paper introduceert FinRule-Bench, een nieuw benchmark voor het evalueren van de diagnostische vaardigheden van grote taalmodellen bij het controleren van echte financiële tabellen op naleving van boekhoudkundige principes, waarbij wordt vastgesteld dat hoewel modellen goed presteren in het verifiëren van individuele regels, hun prestaties sterk afnemen bij het identificeren van overtredingen en het lokaliseren van meerdere gelijktijdige fouten.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

Dit artikel introduceert een nieuwe methode om XAI-attributiemethoden voor neurale machinevertaling te evalueren via attention-geleide kennisdistillatie, waarbij wordt vastgesteld dat op attention gebaseerde attributiemethoden de meest consistente verbeteringen in vertaalkwaliteit opleveren.

Aria Nourbakhsh, Salima Lamsiyah, Adelaide Danilov, Christoph Schommer2026-03-13💬 cs.CL

TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting

TimeSqueeze is een dynamisch patching-mechanisme dat de tokenisatie voor tijdreeksvoorspelling optimaliseert door adaptief variabele patch-grenzen te selecteren op basis van lokale signaalcomplexiteit, waardoor de rekenefficiëntie en convergentiesnelheid van Transformer-modellen aanzienlijk worden verbeterd zonder de tijdelijke structuur te verliezen.

Sravan Kumar Ankireddy, Nikita Seleznev, Nam H. Nguyen, Yulun Wu, Senthil Kumar, Furong Huang, C. Bayan Bruss2026-03-13🤖 cs.AI