EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation
Ce papier présente EoRA, une méthode sans fine-tuning qui restaure la précision des grands modèles de langage compressés en ajoutant des matrices de faible rang via une approximation de sous-espace propre, tout en offrant une flexibilité accrue et une accélération matérielle grâce à un noyau CUDA optimisé.