Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Questo studio confronta l'efficacia e i costi dei sistemi di memoria basati su fatti con quelli degli LLM a lungo contesto, dimostrando che mentre i secondi offrono un migliore richiamo fattuale, i primi diventano economicamente superiori dopo un numero limitato di interazioni grazie a un profilo di costi più stabile.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Questo studio meta-analitico rivela che i modelli di linguaggio automatico, in particolare quelli basati su architetture decoder-only, mostrano prestazioni inferiori rispetto agli umani nella valutazione di risposte brevi, con discrepanze significative legate alla difficoltà percepita, alla tokenizzazione e a pregiudizi razziali, suggerendo la necessità di un ripensamento nella progettazione dei sistemi per l'istruzione ad alto rischio.

Michael Hardy2026-03-06💬 cs.CL

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Il documento presenta il primo approccio per l'acquisizione simultanea di risonanza magnetica in tempo reale, EEG e EMG di superficie, integrando un pipeline di soppressione degli artefatti per studiare in modo completo i processi neurali, muscolari e articolatori alla base della produzione del parlato.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Lo studio valuta la capacità dei modelli linguistici di grandi dimensioni (LLM) di replicare l'incertezza e le interpretazioni degli esperti nell'analisi qualitativa dei valori umani secondo la teoria di Schwartz, rivelando che, sebbene le prestazioni medie siano elevate e gli ensemble migliorino i risultati, i modelli mostrano ancora discrepanze nelle strutture di incertezza e nei bias sistematici rispetto agli analisti umani.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Questo articolo presenta una pipeline innovativa basata su LLM agentic per la SemEval-2026 Task 10, che utilizza un design decoupled con Dynamic Discriminative Chain-of-Thought e un'architettura "Anti-Echo Chamber" per estrarre marcatori psicolinguistici e rilevare l'adesione alle teorie del complotto, ottenendo significativi miglioramenti nelle prestazioni rispetto alla baseline.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL