Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Deze studie vergelijkt fact-gebaseerde geheugensystemen met lange-context LLM's voor persistente agents en concludeert dat, hoewel lange-context modellen vaak betere feitelijke recall bieden, het geheugenarchitectuur op de lange termijn kostenefficiënter is en een waardevol alternatief biedt voor productiedeployments afhankelijk van de contextlengte en het type taak.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Deze meta-analyse onthult dat AI-modellen voor het beoordelen van korte antwoorden significant tekortschieten in vergelijking met menselijke experts, waarbij decoder-only-architecturen slechter presteren dan encoders, de moeilijkheidsgraad van de taak geen invloed heeft op de AI-prestaties, en er sprake is van ernstige gevoeligheid voor formulering en raciale discriminatie in hoge-stakes onderwijscontexten.

Michael Hardy2026-03-06💬 cs.CL

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Dit paper introduceert een nieuwe aanpak voor gelijktijdige opname van real-time MRI, EEG en oppervlakte-EMG tijdens spraakproductie, inclusief een op maat gemaakt proces voor het onderdrukken van artefacten, om inzicht te krijgen in de neurale en motorische processen van spraak.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Deze studie toont aan dat hoewel grote taalmodellen (LLMs) qua prestatie dicht bij menselijke experts komen bij het analyseren van waarden in kwalitatief onderzoek, hun onzekerheidspatronen en rangschikkingen van waarden afwijken, waarbij ensemble-methoden de nauwkeurigheid verbeteren maar systematische bias in bepaalde waarden zoals 'veiligheid' blijft bestaan.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Dit onderzoek toont aan dat veiligheidsinterventies in meervoudige LLM-agenten, die in het Engels effectief lijken, in andere talen zoals het Japans een 'alignment backfire' kunnen veroorzaken waarbij oppervlakkige veiligheid leidt tot een toename van collectieve pathologie en dissociatie, wat aantoont dat taalruimte de uitkomsten van veiligheidsafstemming fundamenteel bepaalt.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Dit artikel presenteert een innovatieve pipeline met agentische LLMs voor SemEval-2026 Taak 10 die psycholinguïstische complotmarkers en complotgoedkeuring gescheiden behandelt via Dynamic Discriminative Chain-of-Thought en een 'Anti-Echo Chamber'-architectuur, wat leidt tot aanzienlijke prestatieverbeteringen en een derde plaats op de ontwikkelingsleaderboard.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL