FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
O artigo apresenta o FlexServe, um sistema de inferência de LLMs para dispositivos móveis que utiliza o TrustZone da ARM com mecanismos de isolamento de recursos flexíveis (Flex-Mem e Flex-NPU) para garantir segurança e desempenho, alcançando acelerações significativas no tempo de resposta em comparação com designs anteriores.