FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
本論文は、ARM TrustZone の不十分なリソース分離によるオーバーヘッドを克服し、柔軟なメモリおよび NPU 保護メカニズムを導入することで、モバイル端末における大規模言語モデル(LLM)推論の高速化とセキュリティを両立させる「FlexServe」システムを提案し、従来手法と比較して大幅な性能向上を実現したことを示しています。