Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
Dit overzichtspaper analyseert geavanceerde methoden voor dynamische routering en cascading tussen meerdere onafhankelijke grote taalmodellen om de inferentie-efficiëntie te maximaliseren door query-gebaseerde modelselectie, en presenteert een conceptueel raamwerk om deze systemen te classificeren en de afwegingen tussen kosten en prestaties te optimaliseren.