Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
Diese Arbeit bietet eine systematische Analyse und ein konzeptionelles Rahmenwerk für dynamische Routing- und Kaskadierungssysteme, die durch die adaptive Auswahl verschiedener unabhängiger Large Language Models je nach Anfragekomplexität die Inferenzeffizienz optimieren und dabei die Leistungsfähigkeit einzelner Modelle übertreffen können.