RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models
El artículo presenta RACER, un método de enrutamiento de modelos de lenguaje grande que aborda el problema de la selección de modelos como un problema de riesgo controlado, generando conjuntos anidados de modelos calibrados para minimizar el error de enrutamiento y mejorar la precisión sin depender de supuestos distribucionales.