Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification
Este artigo propõe um framework para inferência de rankings de modelos de linguagem grandes dependentes do prompt, utilizando um modelo contextual de Bradley-Terry-Luce para gerar conjuntos de confiança estatisticamente válidos que quantificam a incerteza e evitam decisões equivocadas baseadas em estimativas pontuais ruidosas.