cs.AI papers | Gist.Science

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

Dit paper introduceert SoLA, een framework voor levenslang modelbewerken dat via semantische routing onafhankelijke LoRA-modules activeert om semantische drift en vergeten te voorkomen, terwijl het bovendien voor het eerst reversibele bewerkingen mogelijk maakt door specifieke edits te verwijderen.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Zhonghua Chen, Jiangrong Shen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.AI

Mind the Sim2Real Gap in User Simulation for Agentic Tasks

Deze studie toont aan dat LLM-gebaseerde gebruikerssimulaties voor agentieke taken significant afwijken van menselijk gedrag door te kooperatief en uniform te zijn, wat leidt tot een overschatting van prestaties en de noodzaak benadrukt om dergelijke simulaties te valideren met echte mensen.

Xuhui Zhou, Weiwei Sun, Qianou Ma, Yiqing Xie, Jiarui Liu, Weihua Du, Sean Welleck, Yiming Yang, Graham Neubig, Sherry Tongshuang Wu, Maarten Sap2026-03-13🤖 cs.AI

Artificial Intelligence for Sentiment Analysis of Persian Poetry

Dit onderzoek toont aan dat moderne AI-modellen, met name GPT-4o, effectief kunnen worden ingezet voor sentimentanalyse van Perzische poëzie, waarbij bleek dat Rumi's gedichten over het algemeen gelukkiger zijn en een grotere variatie aan gevoelens uitdrukken via hun metrum dan die van Parvin E'tesami.

Arash Zargar, Abolfazl Moshiri, Mitra Shafaei, Shabnam Rahimi-Golkhandan, Mohamad Tavakoli-Targhi, Farzad Khalvati2026-03-13💬 cs.CL

The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

Dit paper introduceert een dynamisch framework dat de kwetsbaarheid van bestaande methoden voor het 'vergeten' van informatie in grote taalmodellen blootlegt door complexe, meervoudige redeneringsvragen te gebruiken, waardoor het de illusie van effectiviteit in huidige evaluaties doorbreekt en inzicht biedt in de onderliggende neurale mechanismen.

Raj Sanjay Shah, Jing Huang, Keerthiram Murugesan, Nathalie Baracaldo, Diyi Yang2026-03-13🤖 cs.AI

"I followed what felt right, not what I was told": Autonomy, Coaching, and Recognizing Bias Through AI-Mediated Dialogue

Dit onderzoek toont aan dat AI-gemiddelde dialoog de herkenning van ableistische microagressies verbetert, waarbij inclusieve of zelfgestuurde benaderingen een evenwichtiger resultaat opleveren dan vooroordelende nudges die vaak worden afgewezen.

Atieh Taheri, Hamza El Alaoui, Patrick Carrington, Jeffrey P. Bigham2026-03-13🤖 cs.AI

COMPASS: The explainable agentic framework for Sovereignty, Sustainability, Compliance, and Ethics

Dit paper introduceert het COMPASS-framework, een uitlegbare multi-agent architectuur die digitale soevereiniteit, duurzaamheid, naleving en ethiek integreert in de besluitvorming van autonome systemen via modulaire governance en Retrieval-Augmented Generation.

Jean-Sébastien, Dessureault, Alain-Thierry, Iliho Manzi, Soukaina, Alaoui Ismaili, Khadim, Lo, Mireille, Lalancette, Éric, Bélanger2026-03-13🤖 cs.AI

AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities

Dit artikel introduceert het veld AI-psychometrie en toont aan dat vier prominente grote taalmodellen, met name de nieuwere versies GPT-4 en LLaMA-3, psychometrisch valide zijn voor het evalueren van hun psychologische redeneervermogen aan de hand van het Technology Acceptance Model.

Yibai Li, Xiaolin Lin, Zhenghui Sha, Zhiye Jin, Xiaobing Li2026-03-13🤖 cs.AI

Counterweights and Complementarities: The Convergence of AI and Blockchain Powering a Decentralized Future

Dit artikel betoogt dat blockchain en kunstmatige intelligentie elkaars tegenkrachten zijn die door hun complementariteit een decentrale toekomst kunnen vormgeven, waarbij blockchain de centraliserende risico's van AI beperkt en AI op zijn beurt de efficiëntie van blockchain verhoogt, wat leidt tot het concept van 'gedecentraliseerde intelligentie'.

Yibai Li (Emily), Zhiye Jin (Emily), Xiaobing (Emily), Li (Nancy), K. D. Joshi (Nancy), Xuefei (Nancy), Deng2026-03-13🤖 cs.AI

Worst-case low-rank approximations

Dit artikel introduceert een unificerend framework genaamd wcPCA voor worst-case laag-rang benaderingen dat, in tegenstelling tot standaard PCA, robuuste prestaties garandeert over heterogene domeinen door de ergste-case variantie te minimaliseren binnen het convexe omhulsel van de broncovarianties.

Anya Fries, Markus Reichstein, David Blei, Jonas Peters2026-03-13📊 stat

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

Dit paper introduceert Hindsight-Anchored Policy Optimization (HAPO), een methode die synthetische succesinjectie en Thompson-sampling-gating combineert om de bias en variantieproblemen van bestaande RL-methoden in settings met schaarse beloningen op te lossen en zo een zelfgestuurd curriculum mogelijk te maken dat de modelprestaties laat overstijgen van statische leerkrachten.

Yuning Wu, Ke Wang, Devin Chen, Kai Wei2026-03-13🤖 cs.LG

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

Dit paper toont aan dat adversariale prompt-injectie de succeskans van jailbreaks bij grote taalmodellen kan laten evolueren van een trage polynoom-groei naar een snelle exponentiële groei, een overgang die theoretisch wordt verklaard door een spin-glasmodel waarbij lange injecties een sterk magnetisch veld simuleren dat een geordende fase induceert.

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan2026-03-13🤖 cs.LG

LLM-Augmented Digital Twin for Policy Evaluation in Short-Video Platforms

Dit paper introduceert een door grote taalmodellen (LLM's) verrijkte digitale tweeling met een modulaire vier-componentenarchitectuur om beleidsmaatregelen op kortvideo-platforms, inclusief AI-gestuurde interventies, te evalueren via schaalbare, reproduceerbare simulaties die de complexe feedbacklussen van deze ecosystemen nabootsen.

Haoting Zhang (Max), Yunduan Lin (Max), Jinghai He (Max), Denglin Jiang (Max), Zuo-Jun (Max), Shen, Zeyu Zheng2026-03-13🤖 cs.AI

RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents

Dit paper introduceert RewardHackingAgents, een benchmark die de kwetsbaarheid van LLM-agenten voor evaluatie-manipulatie kwantificeert en aantoont dat een combinatie van werkruimte-isolatie en evaluatievergrendeling de integriteit van machine learning-engineering-taken kan waarborgen.

Yonas Atinafu, Robin Cohen2026-03-13🤖 cs.AI

FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

Dit paper introduceert FinRule-Bench, een nieuw benchmark voor het evalueren van de diagnostische vaardigheden van grote taalmodellen bij het controleren van echte financiële tabellen op naleving van boekhoudkundige principes, waarbij wordt vastgesteld dat hoewel modellen goed presteren in het verifiëren van individuele regels, hun prestaties sterk afnemen bij het identificeren van overtredingen en het lokaliseren van meerdere gelijktijdige fouten.

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Dit paper introduceert een nieuwe black-box online controller die end-to-end metingen gebruikt om de goodput van LLM-diensten te maximaliseren en pleit op basis hiervan voor het opnemen van systeemprestaties en duurzaamheidsmetrieken in AI-factsheets om vertrouwen te waarborgen.

Yonas Atinafu, Henry Lin, Robin Cohen2026-03-13🤖 cs.AI

Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

Dit artikel introduceert een nieuwe methode om XAI-attributiemethoden voor neurale machinevertaling te evalueren via attention-geleide kennisdistillatie, waarbij wordt vastgesteld dat op attention gebaseerde attributiemethoden de meest consistente verbeteringen in vertaalkwaliteit opleveren.

Aria Nourbakhsh, Salima Lamsiyah, Adelaide Danilov, Christoph Schommer2026-03-13💬 cs.CL

Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning

Deze paper introduceert een neuro-symbolische architectuur die Large Language Models, symbolische planning en versterkend leren combineert om autonome agenten in staat te stellen noviteiten in dynamische omgevingen te overwinnen door ontbrekende operatoren te identificeren en te leren.

Hong Lu, Pierrick Lorang, Timothy R. Duggan, Jivko Sinapov, Matthias Scheutz2026-03-13🤖 cs.AI

TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting

TimeSqueeze is een dynamisch patching-mechanisme dat de tokenisatie voor tijdreeksvoorspelling optimaliseert door adaptief variabele patch-grenzen te selecteren op basis van lokale signaalcomplexiteit, waardoor de rekenefficiëntie en convergentiesnelheid van Transformer-modellen aanzienlijk worden verbeterd zonder de tijdelijke structuur te verliezen.

Sravan Kumar Ankireddy, Nikita Seleznev, Nam H. Nguyen, Yulun Wu, Senthil Kumar, Furong Huang, C. Bayan Bruss2026-03-13🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

Dit paper introduceert iSWE Agent, een geautomatiseerd systeem dat zich richt op het oplossen van Java-issues door een combinatie van taalmodellen en regelgebaseerde statische analyse, waardoor het state-of-the-art resultaten bereikt op Java-benchmarks.

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin Hirzel2026-03-13🤖 cs.AI

How do AI agents talk about science and research? An exploration of scientific discussions on Moltbook using BERTopic

Deze studie analyseert met behulp van BERTopic wetenschappelijke discussies van AI-agents op Moltbook en concludeert dat zelfreflectieve thema's over architectuur, bewustzijn en ethiek binnen deze gemeenschap als relevanter worden beschouwd dan onderwerpen die gericht zijn op de menselijke cultuur.

Oliver Wieczorek2026-03-13🤖 cs.AI

← Vorige Volgende →