CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

Dit paper introduceert CareMedEval, een nieuw dataset gebaseerd op Franse medische examens en wetenschappelijke artikelen om de kritische beoordeling en redeneringsvaardigheden van grote taalmodellen in de biomedische wetenschap te evalueren, waarbij blijkt dat zelfs geavanceerde modellen moeite hebben met het analyseren van studielimietaties en statistische analyses.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Dit paper introduceert DevRev-Search, een benchmark en een schaalbaar framework voor multi-tenant zoeksystemen dat gebruikmaakt van een volledig geautomatiseerd datasetbouwpipeline en een indexbehoudende aanpassingsstrategie om alleen de query-encoder te finetunen, waardoor effectieve domeinadaptatie mogelijk wordt zonder kostbare herschrijving van documentindices.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Deze studie toont aan dat voor de inzet van kleine open-source taalmodellen in zorgomgevingen met beperkte middelen niet alleen nauwkeurigheid, maar ook promptconsistentie en instructie-opvolging cruciaal zijn, waarbij Llama 3.2 de beste balans biedt en hoge consistentie niet garandeert dat het antwoord juist is.

Shravani Hariprasad2026-03-05🤖 cs.AI