PIM-SHERPA: Software Method for On-device LLM Inference by Resolving PIM Memory Attribute and Layout Inconsistencies
Ce papier présente PIM-SHERPA, une méthode logicielle qui résout les incohérences d'attributs et de mise en page de la mémoire dans les systèmes PIM pour permettre une inférence efficace de grands modèles de langage sur appareil, en utilisant des techniques de double tamponnage ou de réorganisation en ligne pour économiser jusqu'à 49,7 % de capacité mémoire tout en maintenant des performances optimales.
Sunjung Lee, Sanghoon Cha, Hyeonsu Kim, Seungwoo Seo, Yuhwan Ro, Sukhan Lee, Byeongho Kim, Yongjun Park, Kyomin Sohn, Seungwon Lee, Jaehoon YuWed, 11 Ma💻 cs