Dissecting clinical reasoning failures in frontier artificial intelligence using 10,000 synthetic cases
Dit onderzoek toont aan dat het evalueren van medische grote taalmodellen met 10.000 synthetische Multiple Sclerose-cases cruciale veiligheidsrisico's en klinische blinde vlekken blootlegt die bij kleine schaaltesten onopgemerkt blijven, waardoor grootschalige simulatie essentieel wordt voor veilige klinische implementatie.