How Reliable is Language Model Micro-Benchmarking?
O artigo conclui que o micro-benchmarking de linguagem frequentemente falha em classificar modelos de forma consistente em comparação com benchmarks completos ou até mesmo amostras aleatórias, exigindo tamanhos de amostra tão grandes que comprometem sua eficiência e utilidade prática.