The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
Questo studio dimostra che, nonostante l'eccellenza nella generazione, i modelli linguistici di grandi dimensioni (LLM) mostrano prestazioni inferiori e inaffidabili nei compiti di valutazione, rivelando un "paradosso" che richiede una maggiore attenzione alla loro affidabilità come giudici.