Deterministic Differentiable Structured Pruning for Large Language Models
Este artículo presenta la Eliminación Estructurada Determinista y Diferenciable (DDP), un método que optimiza máscaras deterministas para reducir el costo de inferencia de los modelos de lenguaje grandes sin la desviación entre entrenamiento y prueba inherente a los enfoques estocásticos anteriores, logrando una pérdida de rendimiento mínima y aceleraciones de inferencia significativas.