Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
Esta encuesta analiza sistemáticamente los enfoques de enrutamiento y cascada dinámicos entre múltiples modelos de lenguaje grandes (LLM) independientes, proponiendo un marco conceptual que equilibra la eficiencia y el rendimiento al seleccionar modelos adaptativos según la complejidad de la consulta, superando así las limitaciones de los despliegues estáticos.