Vision Transformers that Never Stop Learning
Este trabajo investiga la pérdida de plasticidad en Vision Transformers (ViTs), identifica que los módulos de atención y redes feed-forward son particularmente vulnerables, y propone ARROW, un optimizador geométrico que preserva la plasticidad mediante la adaptación de las direcciones del gradiente, demostrando ser más efectivo que los métodos de re-inicialización para el aprendizaje continuo.