Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Deze studie toont aan dat voor de inzet van kleine open-source taalmodellen in zorgomgevingen met beperkte middelen niet alleen nauwkeurigheid, maar ook promptconsistentie en instructie-opvolging cruciaal zijn, waarbij Llama 3.2 de beste balans biedt en hoge consistentie niet garandeert dat het antwoord juist is.

Shravani Hariprasad2026-03-05🤖 cs.AI

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Deze paper introduceert een multi-agent collaboratief framework dat het menselijke 'voorstellen-evalueren-aanpassen'-proces nabootst om via versterkingsleer synthetische data te genereren en te valideren, waardoor de prestaties van zero-shot document-level event argument-extractie aanzienlijk worden verbeterd.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Deze studie auditeert de fabricage van academische citaten door tien grote taalmodellen, kwantificeert de hallucinatiepercentages over verschillende domeinen en modellen, en presenteert effectieve detectiemethoden zoals multi-model consensus en een lichtgewicht classifier die hallucinaties kan identificeren zonder externe databases.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Deze studie toont aan dat hoewel bestaande RAG-modellen en commerciële juridische AI-tools vaak falen bij het benchmarken van Amerikaanse werkloosheidsverzekeringen, een aangepast tool (STARA) aanzienlijk betere resultaten boekt en bovendien blootlegt dat veel vermeende fouten eigenlijk omissies in de menselijke grondwaarheid zijn, wat leidt tot concrete richtlijnen voor de ontwikkeling van nauwkeurige juridische AI-systemen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL