Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks
Dit artikel presenteert een casestudy over meta-evaluatie voor langdurige QA-benchmarks, waarin wordt aangetoond dat menselijke paarvoorkeuren beperkt zijn tot systeemniveau-evaluatie en dat betrouwbare metriekniveau-beoordelingen expertannotatoren en expliciete annotaties vereisen om subjectiviteit en methodologische uitdagingen aan te pakken.
Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL