Routing without Forgetting
O artigo apresenta o "Routing without Forgetting" (RwF), uma arquitetura de transformador que utiliza camadas de recuperação associativa baseada em energia para realizar o aprendizado contínuo online sem esquecer, gerando prompts dinâmicos via recuperação associativa de um único passo em vez de depender de otimização iterativa baseada em gradiente.