Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
Questa rassegna sistematica analizza le strategie di routing dinamico e cascading tra diversi modelli linguistici di grandi dimensioni (LLM), proponendo un quadro concettuale per ottimizzare il compromesso tra costi computazionali e prestazioni adattando la selezione del modello alla complessità della query.