Benchmark Leakage Trap: Can We Trust LLM-based Recommendation?
Este artículo identifica y demuestra que la filtración de datos en conjuntos de benchmark durante el preentrenamiento o ajuste fino de modelos de lenguaje grandes (LLM) genera métricas de rendimiento artificialmente infladas o degradadas en sistemas de recomendación, comprometiendo así la fiabilidad de las evaluaciones actuales.