FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
Il paper presenta FlexServe, un sistema di inferenza per LLM su dispositivi mobili che sfrutta l'isolamento flessibile delle risorse (Flex-Mem e Flex-NPU) all'interno di ARM TrustZone per garantire sicurezza e alte prestazioni, ottenendo significativi miglioramenti nella velocità di generazione rispetto a soluzioni esistenti.