Dropping Just a Handful of Preferences Can Change Top Large Language Model Rankings

Dit onderzoek toont aan dat de rangschikkingen van grote taalmodellen, zoals die op Chatbot Arena, uiterst gevoelig zijn voor het verwijderen van een verwaarloosbaar klein percentage van de voorkeursdata, waardoor de top van de lijst kan veranderen, terwijl rangschikkingen gebaseerd op MT-bench door deskundige annotatoren aanzienlijk robuuster blijken.

Jenny Y. Huang, Yunyi Shen, Dennis Wei + 1 more2026-03-06💻 cs

Bayesian Modeling of Collatz Stopping Times: A Probabilistic Machine Learning Perspective

Dit artikel presenteert een Bayesiaanse machine learning-analyse van de Collatz-stoptijden voor n107n \le 10^7, waarbij een hiërarchisch Negatief Binomiaal regressiemodel en een mechanistische generatieve benadering worden vergeleken om aan te tonen dat modulaire structuur (met name modulo 8) cruciaal is voor het verklaren van de heterogeniteit in deze tijden.

Nicolò Bonacorsi, Matteo Bordoni2026-03-06🔢 math