Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks
Este estudio evalúa por primera vez la influencia académica y la calidad del código de 31 benchmarks de seguridad en LLM, revelando que, aunque los benchmarks no superan a otros trabajos en impacto académico, existe una desconexión significativa entre la prominencia de los autores y la calidad del código, evidenciando una necesidad urgente de mejorar la reutilización y los estándares éticos en los repositorios.