RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models
Le papier présente RACER, une méthode de routage des requêtes vers des modèles de langage qui, en formulant le problème comme une minimisation de la taille de l'ensemble de modèles tout en contrôlant le risque d'erreur, garantit théoriquement et empiriquement une meilleure précision et une gestion rigoureuse des risques sur des données inconnues.