CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Dit paper introduceert CRIMSON, een klinisch onderbouwde evaluatiemethode voor het genereren van radiologieverslagen die fouten weegt op basis van klinische relevantie en patiëntveiligheid, en die sterk correleert met de beoordelingen van gespecialiseerde radiologen.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models

Dit artikel introduceert het AI-CROWD-protocol, dat de afwezigheid van menselijke grondwaarheid in grote contentanalyses oplost door een consensusbenadering te gebruiken die is gebaseerd op de geaggregeerde output van elf grote taalmodellen om betrouwbare labels te genereren.

Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz2026-03-09💬 cs.CL

FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

FlashPrefill is een nieuw raamwerk dat ultra-snelle prefilling voor lange contexten mogelijk maakt door middel van instant patroonontdekking en dynamische drempelwaardering, waardoor een ongeëvenaarde snelheidsverhoging van 27,78x bij 256K tokens en een robuuste prestatieverbetering zelfs bij kortere contexten wordt bereikt.

Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He2026-03-09🤖 cs.AI

SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models

Het paper introduceert SPOT, een framework dat expliciete Chain-of-Thought-redenering comprimeert naar interpreteerbare latente pauzetokens via span-niveau semantische uitlijning en een bevriezing van de taalhoofd, waardoor de inferentiekosten met 37,5% dalen terwijl de nauwkeurigheid met gemiddeld 2,3 punten stijgt.

Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang2026-03-09💬 cs.CL

The EpisTwin: A Knowledge Graph-Grounded Neuro-Symbolic Architecture for Personal AI

Het paper introduceert EpisTwin, een neuro-symbolisch raamwerk dat persoonlijke AI verbetert door generatieve redenering te verankeren in een verifieerbaar persoonlijk kennisgraph, waardoor fragmentatie van gebruikersdata wordt overwonnen en complexe, contextbewuste redenering mogelijk wordt.

Giovanni Servedio, Potito Aghilar, Alessio Mattiace, Gianni Carmosino, Francesco Musicco, Gabriele Conte, Vito Walter Anelli, Tommaso Di Noia, Francesco Maria Donini2026-03-09🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Deze studie toont aan dat hoewel spraakmodellen met Low-Rank Adaptation (LoRA) aanvankelijk goed kunnen worden aangepast aan Pacific Indigenous-talen, ze worstelen met catastrofale vergeetachtigheid bij sequentieel leren, wat de noodzaak benadrukt van robuuste strategieën om het plasticiteit-stabiliteitsdilemma op te lossen.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting Dang2026-03-09💬 cs.CL

From Prompting to Preference Optimization: A Comparative Study of LLM-based Automated Essay Scoring

Deze studie biedt een uitgebreide vergelijking van verschillende LLM-gebaseerde methoden voor het automatisch beoordelen van IELTS-opstellen, waarbij een combinatie van gesuperviseerde fijnafstemming en retrieval-augmented generation de beste resultaten behaalt met een F1-score van 93%.

Minh Hoang Nguyen, Vu Hoang Pham, Xuan Thanh Huynh, Phuc Hong Mai, Vinh The Nguyen, Quang Nhut Huynh, Huy Tien Nguyen, Tung Le2026-03-09💬 cs.CL