EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation
El artículo presenta EoRA, un método sin ajuste fino que utiliza aproximación de rango bajo en el espacio de autovalores para recuperar eficazmente la precisión de modelos de lenguaje grandes comprimidos, superando a métodos anteriores y ofreciendo una implementación optimizada en CUDA que mejora tanto la exactitud como la eficiencia en la inferencia.