CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field
Dit paper introduceert CareMedEval, een nieuw dataset gebaseerd op Franse medische examens en wetenschappelijke artikelen om de kritische beoordeling en redeneringsvaardigheden van grote taalmodellen in de biomedische wetenschap te evalueren, waarbij blijkt dat zelfs geavanceerde modellen moeite hebben met het analyseren van studielimietaties en statistische analyses.