Honest and Reliable Evaluation and Expert Equivalence Testing of Automated Neonatal Seizure Detection

Deze studie biedt een betrouwbaar evaluatiekader voor geautomatiseerde detectie van neonatale epileptische aanvallen door aan te tonen dat bestaande methoden vaak vertekend zijn en door aanbevelingen te doen voor het gebruik van gebalanceerde metrics, uitgebreide prestatie-indicatoren en een multi-rater Turing-test om AI-prestaties eerlijk te vergelijken met die van experts.

Jovana Kljajic, John M. O'Toole, Robert Hogan + 1 more2026-03-06💻 cs

Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Dit onderzoek toont aan dat de rangschikkingen van grote taalmodellen, zoals die op Chatbot Arena, uiterst gevoelig zijn voor het verwijderen van een verwaarloosbaar klein percentage van de voorkeursdata, waardoor de top van de lijst kan veranderen, terwijl rangschikkingen gebaseerd op MT-bench door deskundige annotatoren aanzienlijk robuuster blijken.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs