The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
Dit onderzoek onthult dat grote taalmodellen, ondanks hun vaardigheid in het genereren van antwoorden, aanzienlijk minder goed presteren bij het beoordelen van deze antwoorden, wat wijst op een fundamenteel paradox en de noodzaak om de betrouwbaarheid van dergelijke evaluaties te betwijfelen.