Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks
Este artigo apresenta a primeira avaliação multidimensional da influência acadêmica e da qualidade do código em 31 benchmarks de segurança de LLM, revelando que, embora os benchmarks não superem artigos não-benchmark em citações, existe uma desconexão crítica entre a proeminência dos autores e a qualidade do código, evidenciando a necessidade urgente de melhorar a reprodutibilidade e as considerações éticas nos repositórios.