The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
Este estudio demuestra que los modelos de lenguaje grandes, aunque expertos en tareas de generación, presentan un rendimiento significativamente inferior y a veces poco fiable en tareas de evaluación, revelando una paradoja que cuestiona la confianza en su capacidad para juzgar sus propias respuestas.