ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels
Il paper presenta ClinConsensus, un benchmark cinese basato sul consenso di esperti clinici composto da 2500 casi a risposta aperta che valutano le capacità dei modelli linguistici su compiti medici complessi e longitudinali, introducendo nuove metriche di valutazione e rivelando significative lacune nelle attuali capacità di pianificazione terapeutica.