SR-TTT: Surprisal-Aware Residual Test-Time Training
Il paper introduce SR-TTT, un modello di linguaggio che risolve il problema della perdita di informazioni nei metodi Test-Time Training puri, integrando un meccanismo di memoria residua a gate basato sulla sorpresa per preservare in modo efficiente i token critici mantenendo un footprint di memoria costante.