FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
El artículo presenta FlexServe, un sistema de inferencia de modelos de lenguaje grandes (LLM) para dispositivos móviles que utiliza el mecanismo de aislamiento flexible de recursos (Flex-Mem y Flex-NPU) dentro de ARM TrustZone para lograr un alto rendimiento y seguridad, superando significativamente a diseños anteriores en velocidad de generación de tokens y ejecución de flujos de trabajo multi-modelo.