MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations
Het paper introduceert MedQ-Deg, een uitgebreid benchmark voor het evalueren van multimodale grote taalmodellen in medische beeldvorming onder diverse kwaliteitsdegradaties, waarbij wordt aangetoond dat prestaties systematisch achteruitgaan en modellen vaak onterecht hoog vertrouwen behouden ondanks een daling in nauwkeurigheid.