Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks
Este estudo de caso analisa as limitações das avaliações baseadas em preferências humanas pareadas para benchmarks de QA de longa duração, demonstrando que, embora adequadas para avaliação de nível de sistema, elas são insuficientes para avaliações métricas precisas, exigindo anotações explícitas e especialistas para superar desafios de subjetividade e estabelecer padrões de avaliação mais robustos.
Jena D. Hwang, Varsha Kishore, Amanpreet Singh, Dany Haddad, Aakanksha Naik, Malachi Hamada, Jonathan Bragg, Mike D'Arcy, Daniel S. Weld, Lucy Lu Wang, Doug Downey, Sergey Feldman2026-03-10💬 cs.CL