CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation
Ce papier présente CARE, un cadre d'agrégation conscient des facteurs de confusion qui améliore l'évaluation des LLM en modélisant explicitement les erreurs corrélées des juges pour isoler la qualité réelle sans étiquettes de vérité terrain, réduisant ainsi les erreurs d'agrégation jusqu'à 26,8 %.