\$OneMillion-Bench: How Far are Language Agents from Human Experts?
El paper introduce \$OneMillion-Bench, un nuevo conjunto de 400 tareas curadas por expertos en cinco dominios profesionales que evalúa la fiabilidad y profundidad de los agentes de lenguaje en escenarios reales de alto impacto económico, superando las limitaciones de las pruebas actuales mediante una evaluación basada en criterios rigurosos de precisión factual, coherencia lógica y cumplimiento profesional.
Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG